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内 容 提 要 


本 书 示例 丰富 ， 图 文 并 大， 以 简明 易 懂 的 方式 阐释 了 算法 ， 旨 在 帮助 程序 员 在 日 常 项 目 
算法 为 软件 开发 助力 。 前 三 章 介绍 算法 基础 ， 包 括 二 


贪 禁 算 法 或 动态 规划 ; 散 列 表 的 应 用 ; 图 算法 ; 
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分 查找 、 大 0 表示 法 、 两 种 基本 的 数据 结构 以 及 递归 
等 。 余 下 的 篇 幅 将 主要 介绍 应 用 广泛 的 算法 ， 具 体内 容 包括 : 面 对 具 体 问 题 时 的 解决 技巧 ， 比 如 何 时 采用 
K 最 近邻 算法 。 
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我 因为 爱好 而 踏 入 了 编程 殿 汐 。Visual Basic 6for Dummies 教 会 了 我 基础 知识 , 接着 我 不 断 阅 
读 , 学 到 的 知识 也 越 来 越 多 , 但 对 算法 却 始终 没 搞 明 白 。 至 今 我 还 记得 购买 第 一 本 算法 书后 的 情 
景 : 我 琢磨 着 目录 ， 心 想 终 于 要 把 这 些 主题 搞 明 白 了 。 但 那 本 书 深奥 难 懂 ,看 了 几 周 后 我 就 放弃 
了 。 直 到 遇 到 一 位 优秀 的 算法 教授 后 ， 我 才 认 识 到 这 些 概念 是 多 么 地 简单 而 优雅 。 
几 年 前 , 我 撰写 了 第 一 篇 图 解 式 博文 。 我 是 视觉 型 学 习 者 ， 对 图 解 式 写 作风 格 钟爱 有 加 。 从 
那 时 候 起 ， 我 撰写 了 多 篇 介绍 函数 式 编程 、Git、 机 器 学 习 和 并 发 的 图 解 式 博文 。 顺 便 说 一 句 ， 
刚 开 始 我 的 写作 水 平 很 一 般 。 诠 释 技 术 概念 很 难 ,， 设计 出 好 的 示例 需要 时 间 ， 阐释 难以 理解 的 概 
念 也 需要 时 间 ， 因 此 很 容易 对 难 讲 的 内 容 一 带 而 过 。 我 本 以 为 自己 已 经 做 得 相当 好 了 ， 直 到 有 一 
篇 博文 大 受 欢 迎 , 有 位 同事 却 跑 过 来 跟 我 说 :“ 我 读 了 你 的 博文 , 但 还 是 没 搞 懂 。” 看 来 在 写作 方 
面 我 要 学 习 的 还 有 很 多 。 

在 撰写 这 些 博文 期 间 ,， Manning 出 版 社 找到 我 ， 问 我 想 不 想 编写 一 本 图 解 式 图 书 。 事 实证 明 ， 
Manning 出 版 社 的 编辑 对 如 何 诠释 技术 概念 很 在 行 ， 他 们 教会 了 我 如 何 做 。 我 编写 本 书 的 目的 就 
是 要 把 难 懂 的 技术 主题 说 清楚 ,让 这 本 算法 书 易于 理解 。 与 撰写 第 一 篇 博文 时 相 比 , 我 的 写作 水 
平 有 了 长 足 进 步 ， 但 愿 你 也 认为 本 书 内 容 丰 富 、 易 于 理解 。 
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本 书 易于 理解 ,没有 大 跨度 的 思维 跳跃 ， 每 次 引入 新 概念 时 ， 都 立即 进行 诠释 ,或 者 指出 将 
在 什么 地 方 进行 诠释 。 核 心 概念 都 通过 练习 和 反复 诠释 进行 强化 ， 以 便 你 检验 假设 ， 跟 上 步伐 。 
书 中 使 用 示例 来 帮助 理解 。 我 的 目标 是 让 你 轻松 地 理解 这 些 概 念 ,而 不 是 让 正文 充斥 各 种 符 
号 。 我 还 认为 ,如 果 能 够 回忆 起 熟悉 的 情形 ,学习 效果 将 达到 最 佳 ， 而 示例 有 助 于 唤醒 记忆 。 


此 ， 如 果 你 要 记 住 数组 和 链表 (第 2 章 ) 之 间 的 差别 ， 


只 要 想 想 在 电影 院 找 座 位 就 坐 的 情形 。 男 


外 ， 不 怕 你 说 我 史 呈 ,我 是 视觉 型 学 习 者 ， 因 此 本 书包 含 大 量 的 图 示 。 


本 书 内 容 是 精 挑 细 选 的 。 没 必要 在 一 本 书 中 介绍 所 有 的 排序 算法 , 不 然 还 要 维基 百科 和 可 汗 
学 院 做 什么 。 书 中 介绍 的 所 有 算法 都 非常 实用 ,对 我 从 事 的 软件 工程 师 的 工作 大 有 帮助 ,还 可 为 


阅读 更 复杂 的 主题 打下 坚实 的 基础 。 祝 你 阅读 愉快 ! 


路 线 图 
本 书 前 三 章 将 帮助 你 打 好 基础 。 


口 第 1 章 : 你 将 学 习 第 一 种 实用 算法 一 一 二 分 查 j 


找 ; 还 将 学 习 使 用 大 O 表 示 法 分 析 算 法 的 速 


度 。 本 书 从 始 至 终 都 将 使 用 大 O 表 示 法 来 分 析 算 法 的 速度 。 


口 第 2 章 : 你 将 学 习 两 种 基本 的 数据 结构 


数组 和 链表 。 这 两 种 数据 结构 贯穿 本 书 ， 它 们 
还 被 用 来 创建 更 高 级 的 数据 结构 ， 如 第 5 章 介绍 的 散 列 表 。 
口 第 3 章 : 你 将 学 习 递 归 ， 一 种 被 众多 算法 〈 如 第 4 章 介绍 的 快速 排序 ) 采用 的 实用 技巧 。 


根据 我 的 经 验 ， 大 O 表 示 法 和 递归 对 初学 者 来 说 颇具 挑战 性 ， 因 此 介绍 这 些 内 容 时 我 放 慢 了 


脚步 ， 花 费 的 篇 幅 也 较 长 。 
余下 的 篇 幅 将 介绍 应 用 广泛 的 算法 。 


口 问题 解决 技巧 : 将 在 第 4、8 和 9 章 介 绍 。 遇 到 问题 时 ， 如 果 不 确定 该 如 何 高 效 地 解决 ， 可 


尝试 分 而 治之 (第 4 章 ) 或 动态 规划 ( 第 9 章 ); 


如 果 认 识 到 根本 就 没有 高 效 的 解决 方案 ， 


可 转 而 使 用 贪 焚 算 法 〈 第 8 章 ) 来 得 到 近似 答案 。 
口 散 列表 : 将 在 第 5 章 介绍 。 散 列表 是 一 种 很 有 用 的 数据 结构 ， 由 键 值 对 组 成 ， 如 人 名 和 电 
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子 邮 件 地 址 或 者 用 户 名 和 密码 。 散 列表 的 用 途 之 大 ， 再 怎么 强调 都 不 过 分 。 每 当 我 需要 
解决 问题 时 ， 首 先 想到 的 两 种 方法 是 : 可 以 使 用 散 列 表 吗 ?可 以 使 用 图 来 建立 模型 吗 ? 
口 图 算法 : 将 在 第 5、7 章 介绍 。 图 是 一 种 模拟 网 络 的 方法 ， 这 种 网 络 包括 人 际 关系 网 、 公 
路 网 、 神 经 元 网 络 或 者 任何 一 组 连接 。 广 度 优先 搜索 (第 6 章 ) 和 狄 克 斯 特 拉 算 法 (第 7 
章 ) 计算 网 络 中 两 点 之 间 的 最 短 距离 ， 可 用 来 计算 两 人 之 间 的 分 隔 度 或 前 往 目的 地 的 最 

短路 径 。 

口 K 最 近邻 算法 ( KNN ): 将 在 第 10 章 介绍 。 这 是 一 种 简单 的 机 需 学 习 算 法 ， 可 用 于 创建 推 
荐 系统 、OCR 引 擎 、 预 测 股价 或 其 他 值 ( 如 “我 们 认为 Adit 会 给 这 部 电影 打 4 星 ”) 的 系统 ， 
以 及 对 物件 进行 分 类 ( 如 “这 个 字母 是 Q”)。 

口 接 下 来 如 何 做 : 第 11 章 概述 了 适合 你 进一步 学 习 的 10 种 算法 。 


如 何 阅读 本 书 

本 书 的 内 容 和 排列 顺序 都 经 过 了 细心 编排 。 如 果 你 对 某 个 主题 感 兴趣 , 直接 跳 到 那里 阅读 即 
可 ; 否则 就 按 顺序 逐 章 阅读 吧 ， 因 为 它们 都 以 之 前 介绍 的 内 容 为 基础 。 

强烈 建议 你 动手 执行 示例 代码 , 这 部 分 的 重要 性 再 怎么 强调 都 不 过 分 。 可 以 原封 不 动 地 输入 
代码 , 也 可 从 www.manning.com/books/grokking-algorithms 或 https://github.com/egonschiele/grokking_ 
algorithms 下 载 ， 再 执行 它们 。 这 样 ， 你 记 住 的 内 容 将 多 得 多 。 

另外 ,建议 你 完成 书 中 的 练习 。 这 些 练习 都 很 短 ,通常 只 需 一 两 分 钟 就 能 完成 ， 但 有 些 可 能 
需要 5~10 分 钟 。 这 些 练习 有 助 于 检查 你 的 思路 ， 以 免 偏 离 正 道 太 远 。 


读者 对 象 


本 书 适合 任何 具备 编程 基础 并 想 理解 算法 的 人 阅读 。 你 可 能 面临 一 个 编程 问题 , 需要 找 一 种 
算法 来 实现 解决 方案 , 抑或 你 想 知 道 哪些 算法 比较 有 用 。 下 面 列 出 了 可 能 从 本 书 获 得 很 多 帮助 的 
部 分 读者 。 

口 业余 程序 员 

口 编程 培训 班 学 员 

口 需要 重 温 算法 的 计算 机 专业 毕业 生 

口 对 编程 感 兴趣 的 物理 或 数学 等 专业 毕业 生 


代码 约定 和 下 载 


本 书 所 有 的 示例 代码 都 是 使 用 Python 2.7 编 写 的 。 书 中 在 列 出 代码 时 使 用 了 等 宽 字体 。 有 些 
代码 还 进行 了 标注 ， 旨 在 突出 重要 的 概念 。 
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本 书 的 示例 代码 可 从 出 版 社 网 站 www.manning.com/books/grokking-algorithms 下 载 ， 也 可 从 
https://github.com/egonschiele/grokking algorithms 下 载 。 


我 认为 ， 如 果 能 享受 学 习 过 程 ， 就 能 获得 最 好 的 学 习 效果 。 请 尽情 地 享受 学 习 过 程 ， 动 手 运 
行 示例 代码 吧 ! 


作者 在 线 


购买 英文 版 的 读者 可 免费 访问 Manning 出 版 社 管理 的 专用 网 络 论坛 ， 并 可 以 评论 本 书 、 提 出 
技术 性 问题 以 及 获得 作者 和 其 他 读者 的 帮助 。 帮 要 访问 并 订阅 该 论坛 , 可 在 浏览 器 的 地 址 栏 中 输 
和 wwwmanning.com/books/grokking-algorithms。 这 个 网 页 会 告诉 你 注册 后 如 何 进 入 论坛 、 可 获得 
那些 帮助 以 及 讨论 时 应 遵守 的 规则 。 


Manning 出 版 社 致力 于 为 读者 和 作者 提供 能 够 深入 交流 的 场所 。 然 而 ， 作 者 参与 论坛 讨论 纯 
属 自愿 ， 没 有 任何 报酬 ， 因 此 Manning 出 版 社 对 其 参与 讨论 的 程度 不 做 任何 承诺 。 建 议 你 向 作者 
提 些 有 挑战 性 的 问题 ， 以 免 他 失去 参与 讨论 的 兴趣 ! 只 要 本 书 还 在 销售 ， 你 就 能 通过 出 版 社 的 网 
站 访问 作者 在 线 论坛 以 及 存档 的 讨论 内 容 。 
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算法 简介 
本 章 内 容 
口 为 阅读 后 续 内 容 打下 基础 。 
口 编写 第 一 种 查找 算法 二 分 查找 。 
口 学 习 如 何 谈 论 算 法 的 运行 时 间 大 O 表 示 法 。 
口 了 解 一 种 常用 的 算法 设计 方法 一 递归 。 


1.1 引言 


算法 是 一 组 完成 任务 的 指令 。 任 何 代码 片段 都 可 视 为 算法 ， 但 本 书 只 介绍 比较 有 趣 的 部 分 。 
本 书 介绍 的 算法 要 么 速度 快 , 要 么 能 解决 有 趣 的 问题 , 要 么 兼 而 有 之 。 下 面 是 书 中 一 些 重要 内 容 。 


执行 的 步 又 从 40 亿 个 减少 到 了 32 个 ! 


口 第 1 章 讨论 二 分 查找 ， 并 演示 算法 如 何 能 够 提高 代码 的 速度 。 在 一 个 示例 中 ,算法 将 需要 


口 GPS 设备 使 用 图 算法 来 计算 前 往 目 的 地 的 最 短路 径 ， 这 将 在 第 6、7 和 8 章 介绍 。 


口 你 可 使 用 动态 规划 来 编写 下 国际 跳棋 


的 AI 算 法 ， 这 将 在 第 9 章 讨论 。 


对 于 每 种 算法 ， 本 书 都 将 首先 进行 描述 并 提供 示例 ， 再 使 用 大 0 表示 法 讨论 其 运行 时 间 ， 最 


后 探索 它 可 以 解决 的 其 他 问题 。 


1.1.1 性 能 方面 


好 消息 是 , 本 书 介绍 的 每 种 算法 都 很 可 能 有 使 用 你 喜欢 的 语言 编写 的 实现 , 因此 你 无 需 自己 
动手 编写 每 种 算法 的 代码 ! 但 如 果 你 不 明白 其 优 缺 点 ， 这 些 实现 将 毫 无 用 处 。 在 本 书 中 ,你 将 学 
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习 比 较 不 同 算法 的 优 缺 点 : 该 使 用 合并 排序 算法 还 是 快速 排序 算法 ， 或 者 该 使 用 数组 还 是 链表 。 
仅仅 改 用 不 同 的 数据 结构 就 可 能 让 结果 大 不 相同 。 


1.1.2 ”问题 解决 技巧 
你 将 学 习 至 今 都 没有 掌握 的 问题 解决 技巧 ， 例 如 : 
口 如 果 你 喜欢 开发 电子 游戏 ， 可 使 用 图 算法 编写 跟踪 用 户 的 AI 系 统 ; 
口 你 将 学 习 使 用 K 最 近邻 算法 编写 推荐 系统 ; 
口 有 些 问题 在 有 限 的 时 间 内 是 不 可 解 的 ! 书 中 讨论 NP 完 全 问题 的 部 分 将 告诉 你 ， 如 何 识别 
这 样 的 问题 以 及 如 何 设计 找到 近似 答案 的 算法 。 
总 而 言 之 , 读 完 本 书后 ,你 将 熟悉 一 些 使 用 最 为 广泛 的 算法 。 利 用 这 些 新 学 到 的 知识 ,你 可 
学 习 更 具体 的 AI 算法 、 数 据 库 算 法 等 ， 还 可 在 工作 中 迎接 更 严峻 的 挑战 。 


需要 具备 的 知识 
要 疗 读本 书 ， 需 要 具备 基本 的 代数 知识 。 具 体 地 说 ， 给 定 醒 数 Jlx) -x X 2，A5) 的 值 是 多 
少 呢 ? 如 果 你 的 答案 为 10， 那 就 够 了 。 
另外 ,如果 你 熟悉 一 门 编程 语言 ， 本 章 (以 及 本 书 ) 将 更 容易 理解 。 本 书 的 示例 都 是 使 用 
Python 编写 的 。 如 有 果 你 不 懂 任 何 编程 语言 但 想 学 习 一 门 ， 请 选择 Python， 它 非常 适合 初学 者 ; 
如 果 你 熟悉 其 他 语言 ， 如 Ruby， 对 阅读 本 书 也 大 有 帮助 。 


1.2 ”二 分 查找 


假设 要 在 电话 短 中 找 一 个 名 字 以 KK 打头 的 人 ，( 现在 谁 还 用 电话 禾 ! ) 
可 以 从 头 开始 翻 页 , 直到 进入 以 K 打 头 的 部 分 。 但 你 很 可 能 不 这 样 做 ,而 KC 
是 从 中 间 开 始 ， 因 为 你 知道 以 K 打 头 的 名 字 在 电话 禾 中 间 。 

又 假设 要 在 字典 中 找 一 个 以 0 打头 的 单词 ， 你 也 将 从 中 间 附 近 开 始 。 

现在 假设 你 登录 Facebook。 当 你 这 样 做 时 ，Facebook 必 须 核实 你 是 
否 有 其 网 站 的 账户 ， 因 此 必须 在 其 数据 库 中 查找 你 的 用 户 名 。 如 果 你 的 
用 户 名 为 karlmageddon，Facebook 可 从 以 A 打 头 的 部 分 开始 查找 ， 但 更 合 
乎 逻辑 的 做 法 是 从 中 间 开 始 查 找 。 

这 是 一 个 查找 问题 ， 在 前 述 所 有 情况 下 ， 都 可 使 用 同一 种 算法 来 解 
决 问题 ， 这 种 算法 就 是 二 分 查找 。 


二 分 查找 是 一 种 算法 ， 其 输入 是 一 个 有 序 的 元 素 列表 〈 必须 有 序 的 原因 稍 后 解释 )。 如 果 要 
查找 的 元 素 包含 在 列表 中 ， 二 分 查找 返回 其 位 置 ; 否则 返回 nu11。 


下 图 是 一 个 例子 。 


[9 RN 
MAE 
= ee 中 忌 A| 


XR op 使 用 二 分 查找 在 电 
0 话 簿 中 查找 公司 
OANA '§ 
i 春光 
J 好 和 OK 小 


14 A NULL 
下 面 的 示例 说 明了 二 分 查找 的 工作 原理 。 我 随便 想 一 个 1 一 100 的 数字 。 


12 [3 Toe 


你 的 目标 是 以 最 少 的 次 数 猜 到 这 个 数字 。 你 每 次 猜测 后 ， 我 会 说 小 了 、 大 了 或 对 了 。 
假设 你 从 1 开始 依次 往 上 猜 ， 猜 测 过 程 会 


并 
[i 
六 


ps 一 


[xTx TzIx [z [a [RT 


) AS 一 种 糟糕 的 猜 数 法 
SZ. 又 


这 是 简单 查找 , 更 准确 的 说 法 是 傻 找 。 每 次 猜测 都 只 能 排除 一 个 数字 。 如 果 我 想 的 数字 是 99， 
你 得 猜 99 次 才能 猜 到 ! 


1.2.1 更 佳 的 查找 方式 


下 面 是 一 种 更 佳 的 猜 法 。 从 50 开始 。 


50)(3 pa xm 区 


SR 一 这 由 葡 宁都 小 了 
XR 


小 了 ,但 排除 了 一 半 的 数字 ! 至 此 ， 你 知道 1 一 50 都 小 了 。 接 下 来 ， 你 猜 75。 


大 了 , 那 余 下 的 数字 又 排除 了 一 半 ! 使 用 二 分 查找 时 ， 你 猜测 的 是 中 间 的 数字 ， 从 而 每 次 都 
将 余下 的 数字 排除 一 半 。 接 下 来 ， 你 猜 63 (50 和 75 中 间 的 数字 )。 


A -A 


二 分 查找 ， 你 学 习 了 第 一 种 算法 ! 每 次 猜测 排除 的 数字 个 数 如 下 。 


中 


这 部 


[orz# | [59 ->[25 >[B3] [天 这 [4] 网 S/T- 使 用 二 分 查找 时 ， 每 


次 都 排除 一 半 的 数字 


7 瞩 
不 管 我 心里 想 的 是 哪个 数字 , 你 在 7 次 之 内 都 能 猜 到 ,因为 每 次 加 、 
猜测 都 将 排除 很 多 数字 ! 短 单 查找 ， 学 
二 分 查找 少 


假设 你 要 在 字典 中 查找 一 个 单词 ,而 该 字典 包含 240 000 个 单词 ， 
你 认为 每 种 查找 最 多 需要 多 少 步 ? 


如 果 要 查找 的 单词 位 于 字典 末尾 ， 使 用 简单 查找 将 需要 240 000 步 。 使 用 二 分 查找 时 ， 每 次 
排除 一 半 单 词 ， 直 到 最 后 只 剩 下 一 个 单词 。 


ER 一 [t2gk| 一 [Gep 一 Borl = [15K] > Fs5K) L759 
CI 加 < C33] [ex] 
\ ‘4 J/ 


3% >Ds]»021-C4 32] —= [0 
“7 


18 步 
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因此 ， 使 用 二 分 查找 只 需 18 步 一 一 少 多 了 ! 一 般 而 言 ， 对 于 包含 "个 元 素 的 列表 ， 用 二 分 查 
找 最 多 需要 logwn 步 ， 而 简单 查找 最 多 需要 n 步 。 


对 数 
你 可 能 不 记得 什么 是 对 数 了 ,但 很 可 能 记得 什么 是 千 。logio100 相 当 于 问 “ 将 多 少 个 10 相 乘 
的 结果 为 100”。 答 案 是 两 个 : 10 x 10=100。 因 此 ，logio100=2。 对 数 运算 是 需 运 算 的 逆 运 算 。 


I$ -19% < Load08 =2 

1$ -lop > (og,19DD -3 

2 -8 © (log -3 

六 

2 -32 © loq32-5 
对 数 是 晨 运 算 的 逆 运算 


本 书 使 用 大 0 表示 法 〈 稍 后 介绍 ) 讨论 运行 时 间 时 ，log 指 的 都 是 log?。 使 用 简单 查找 法 查 
找 元 素 时 ,在 最 糟 情况 下 需要 查看 每 个 元 素 。 因 此 ,如果 列 表 包 含 8 个 数字 ,你 最 多 需要 检查 8 
个 数字 。 而 使 用 二 分 查找 时 ， 最 多 需要 检查 log n 个 元 素 。 如 果 列 表 包 含 8 个 元 素 ， 你 最 多 需要 
检查 3 个 元 素 ， 因 为 log 8=3 (23=8 )。 如 果 列 表 包 含 1024 个 元 素 ， 你 最 多 需要 检查 10 个 元 素 ， 
因为 log 1024 = 10 (2"=1024 )。 


说 明 
本 书 经 常会 谈 到 log 时 间 ， 因 此 你 必须 明白 对 数 的 概念 。 如 果 你 不 明白 ， 可 汗 学 院 
( khanacademy.org ) 有 一 个 不 错 的 视频 ， 把 这 个 概念 讲 得 很 清楚 。 


说 明 
仅 当 列表 是 有 序 的 时 候 ,二 分 查找 才 管 用 。 例 如 ,电话 簿 中 的 名 字 是 按 字母 顺序 排列 的 ， 
因此 可 以 使 用 二 分 查找 来 查找 名 字 。 如 果 名 字 不 是 按 顺 序 排列 的 ， 结 果 将 如 何 呢 ? 


下 面 来 看 看 如 何 编写 执行 二 分 查找 的 Python 代码 。 这 里 的 代码 示例 使 用 了 数组 。 如 果 你 不 熟 
悉数 组 ， 也 不 用 担心 ， 下 一 章 就 会 介绍 。 你 只 需 知道 ， 可 将 一 系列 元 素 存储 在 一 系列 相 邻 的 桶 
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( bucket ), 即 数组 中 。 这 些 桶 从 0 开始 编号 : 第 一 个 桶 的 位 置 为 #0, 第 二 个 桶 为 的 ,第 三 个 桶 为 恩 ， 
以 此 类 推 。 

函数 binary_search 接 受 一 个 有 序数 组 和 一 个 元 素 。 如 果 指 定 的 元 素 包 含 在 数组 中 ， 
函数 将 返回 其 位 置 。 你 将 跟踪 要 在 其 中 查找 的 数组 部 分 一 一 开始 时 为 整个 数组 。 


low = 0 
high = 


Leow Re 


len(list) - 1 


4 


~ 一 一 


这 是 我 们 要 查 拒 的 范围 


你 每 次 都 检查 中 间 的 元 素 。 


如 果 (low + high) 不 是 偶数 ， 


mid = (low + high) / 2 < 癌 a 
guess = listl[midqd] Python 自动 将 mid 向 下 圆 整 。 
如 果 猜 的 数字 小 了 ， 就 相应 地 修改 1ow。 
if guess < item: is 加 新 信 
low = mid + 1 } 和 新 
如 果 猜 的 数字 大 了 ， 就 修改 hign。 完 整 的 代码 如 下 。 
def binary_ 2 item): low 和 high 用 于 跟踪 要 在 其 中 
low=0 <: i : a 查找 的 列表 部 分 
high = len(list)-—1 < 
a 只 要 范围 没有 缩小 型 
While low <= high: < 人 
mid = (low + high) < A 
guess = list[mid] 就 检查 中 间 的 元 素 
if guess == item: <&… - 找到 了 元 素 
return mid 
if guess > item: < iy 有 沾 宅 
high = mid - 1 猜 的 数字 大 了 
else: < 二 .… 猜 的 数字 小 了 
Ls … 没有 指定 的 元 素 
return None < 
来 测试 一 下 ! 
TM Lt. En LL Sy B71 9 A 别 记 了 索引 从 0 开始 ,第 
print binary_search(my_list, 3) # => 1 < 二 个 位 置 的 索引 为 1 
print binary_search(my_list，-1) # => None 所 在 Python 中 , None 表 示 空 , 它 


意味 着 没有 找到 指定 的 元 素 


1.1 假设 有 一 个 包含 128 个 名 字 的 有 序列 表 ， 你 要 使 用 二 分 查找 在 其 中 查找 一 个 名 字 ， 请 
问 最 多 需要 几 步 才能 找到 ? 
1.2 ”上面 列表 的 长 度 翻 倍 后 ， 最 多 需要 几 步 ? 


1.2.2 ”运行 时 间 

每 次 介绍 算法 时 , 我 都 将 讨论 其 运行 时 间 。 一 般 而 言 , 应 选择 效率 最 高 的 算 
法 ， 以 最 大 限度 地 减少 运行 时 间或 占用 空间 。 

回 到 前 面 的 二 分 查找 。 使 用 它 可 节省 多 少时 间 呢 ? 简单 查找 逐个 地 检查 数 
字 , 如 果 列 表 包 含 100 个 数字 , 最 多 需要 猜 100 次 。 如 果 列 表 包 含 40 亿 个 数字 , 最 
多 需要 猜 40 亿 次 。 换 言 之 , 最 多 需要 猜测 的 次 数 与 列表 长 度 相同 , 这 被 称 为 线性 
时 间 (linear time )。 

二 分 查找 则 不 同 。 如 果 列 表 包 含 100 个 元 素 ， 最 多 要 猜 7 次 ; 如 果 列 表 包 含 40 亿 个 数字 ,最 多 
需 猜 32 次 。 厉 害 吧 ? 二 分 查找 的 运行 时 间 为 对 数 时 间 (或 log 时 间 ) 下 表 总 结 了 我 们 发 现 的 情况 。 


100 个 先 泰 100 个 先 泰 


vy v 
最 多 需要 靖 100 次 | 最 多 需要 牺 了 次 


4 000 000 000 4 000 000 000 oy ee 
v 二 
最 多 需要 入 最 多 需要 入 32 次 
4000000000 次 
一 一 一 


对 风 


1.3 大 O 表示 法 

大 0 表示 法 是 一 种 特殊 的 表示 法 ， 指 出 了 算法 的 速度 有 多 快 。 谁 在 乎 呢 ? 实际 上 ， 你 经 常 要 
使 用 别人 编写 的 算法 ,在 这 种 情况 下 ， 知 道 这 些 算 法 的 速度 大 有 神 益 。 本 节 将 介绍 大 0 表示 法 是 
什么 ， 并 使 用 它 列 出 一 些 最 常见 的 算法 运行 时 间 。 
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1.3.1 算法 的 运行 时 间 以 不 同 的 速度 增加 


Bob 要 为 NASA 编 写 一 个 查找 算法 ， 这 个 算法 在 火箭 即将 登陆 月 球 | 
前 开始 执行 ， 帮 助 计算 着 陆地 点 。 

这 个 示例 表明 ， 两 种 算法 的 运行 时 间 呈 现 不 同 的 增 速 。Bob 需 要 做 
出 决定 ， 是 使 用 简单 查找 还 是 二 分 查找 。 使 用 的 算法 必须 快速 而 准确 。 
一 方面 ， 二 分 查找 的 速度 更 快 。Bob 必 须 在 10 秒 钟 内 找 出 着 陆地 点 ， 否 
则 火箭 将 偏离 方向 。 男 一 方面 ,简单 查找 算法 编写 起 来 更 容易 ， 因 此 出 
现 bug 的 可 能 性 更 小 。Bob 可 不 希望 引导 火箭 着 陆 的 代码 中 有 bug! 为 确 
保 万 无 一 失 ,Bob 决 定 计 算 两 种 算法 在 列表 包含 100 个 元 素 的 情况 下 需要 \ 
的 时 间 。 

假设 检查 一 个 元 素 需 要 1 毫秒 。 使 用 简单 查找 时 ，Bob 必 须 检查 100 个 元 素 , 因此 需要 100 毫 秒 
才能 查找 完毕 。 而 使 用 二 分 查找 时 ， 只 需 检查 7 个 元 素 ( log2100 大 约 为 7 )， 因 此 需要 7 毫秒 就 能 查 
找 完 毕 。 然 而 ， 实 际 要 查找 的 列表 可 能 包含 10 亿 个 元 素 , 在 这 种 情况 下 ， 简 单 查 找 需 要 多 长 时 间 
呢 ? 二 分 查找 又 需要 多 长 时 间 呢 ? 请 务必 找 出 这 两 个 问题 的 答案 ， 再 接着 往 下 读 。 


列表 包含 100 个 元 素 
时 ， 简 单 查找 和 二 分 
查找 的 运行 时 间 


VS 


内 单 查 匠 二 全 要 交 
1 了 二 Res 


Bob 使 用 包含 10 亿 个 元 素 的 列表 运行 二 分 查找 ,运行 时 间 为 30 毫 秒 (log21 000 000 000 大 约 为 
30 )。 他 心里 想 , 二 分 查找 的 速度 大 约 为 简单 查找 的 15 倍 ， 因 为 列表 包含 100 个 元 素 时 ,简单 查找 
需要 100 毫 秒 , 而 二 分 查找 需要 7 毫秒 。 因此 , 列表 包含 10 亿 个 元 素 时 , 简单 查找 需要 30 x 15=450 
毫秒 ， 完 全 符合 在 10 秒 内 查找 完毕 的 要 求 。Bob 决 定 使 用 简单 查找 。 这 是 正确 的 选择 吗 ? 


不 是 。 实际 上 ，Bob 错 了 ,而 且 错 得 离谱 。 列 表 包 含 10 亿 个 元 素 时 , 简单 查找 需要 10 亿 毫秒 ， 
相当 于 11 天 ! 为 什么 会 这 样 呢 ”因为 二 分 查找 和 简单 查找 的 运行 时 间 的 增 速 不 同 。 


和 - 运行 时 间 的 增 速 
lo Oo 全 元素 有 天 壤 之 别 ， 


4 Dooeoo ODO 不 元 素 


也 就 是 说 , 随 着 元 素数 量 的 增加 ,二 分 查找 需要 的 额外 时 间 并 不 多 ， 
而 简单 查找 需要 的 额外 时 间 却 很 多 。 因 此 ， 随 着 列表 的 增长 ,二 分 查找 
的 速度 比 简单 查找 快 得 多 。Bob 以 为 二 分 查找 速度 为 简单 查找 的 15 倍 ， 
这 不 对 : 列表 包含 10 亿 个 元 素 时 ， 为 3300 万 倍 。 有 鉴于 此 ,， 仅 知道 算法 
需要 多 长 时 间 才 能 运行 完毕 还 不 够 , 还 需 知道 运行 时 间 如 何 随 列表 增长 
而 增加 。 这 正 是 大 0 表示 法 的 用 武之 地 。 

大 0 表示 法 指出 了 算法 有 多 快 。 例 如 ， 假 设 列表 包含 "个 元 素 。 简 
单 查找 需要 检查 每 个 元 素 ， 因 此 需要 执行 2 次 操作 。 使 用 大 0 表示 法 ， 
这 个 运行 时 间 为 OOD)。 单 位 秒 呢 ? 没有 一 一 大 0 表示 法 指 的 并 非 以 秒 为 单位 的 速度 。 大 0 表示 法 
让 你 能 够 比较 操作 数 ， 它 指出 了 算法 运行 时 间 的 增 速 。 

再 来 看 一 个 例子 。 为 检查 长 度 为 n 的 列表 ， 二 分 查找 需要 执行 log xz 次 操作 。 使 用 大 0 表示 法 ， 
这 个 运行 时 间 怎 么 表示 呢 ? OUdog n)。 一 般 而 言 ， 大 0 表示 法 像 下 面 这 样 。 


O (nN) 大 0 表示 法 是 什么 
Gn 
称 放 大 


“大 
这 指出 了 算法 需要 执行 的 操作 数 。 之 所 以 称 为 大 0 表示 法 ， 是 因为 操作 数 前 有 个 大 0。 这 听 
起 来 像 笑话 ， 但 事实 如 此 ! 
下 面 来 看 一 些 例子 ， 看 看 你 能 否 确 定 这 些 算法 的 运行 时 间 。 


1.3.2 ”理解 不 同 的 大 O 运行 时 间 
下 面 的 示例 ， 你 在 家 里 使 用 纸 和 笔 就 能 完成 。 假 设 你 要 画 一 个 网 格 ， 它 包含 16 个 格子 。 


| 
Vl 
Es 


PE 


要 绘制 这 样 的 网 格 ， 
有 什么 好 的 算法 吗 ? 


pr Pe 
‘B34,t5 ,16 
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算法 1 
一 种 方法 是 以 每 次 画 一 个 的 方式 画 16 个 格子 。 记 住 ， 大 0 表示 法 计算 的 是 操作 数 。 在 这 个 示 
例 中 , 画 一 个 格子 是 一 次 操作 , 需要 画 16 个 格子 。 如 果 每 次 画 一 个 格子 , 需要 执行 多 少 次 操作 呢 ? 


画 16 个 格子 需要 16 步 。 这 种 算法 的 运行 时 间 是 多 少 ? 
算法 2 
请 尝试 这 种 算法 一 一 将 纸 折 起 来 。 


在 这 个 示例 中 ， 将 纸 对 折 一 次 就 是 一 次 操作 。 第 一 次 对 折 相 当 于 画 了 两 个 格子 ! 


再 折 ， 再 折 ， 再 折 。 
” Ls 4 J. 艺 


折 4 次 后 再 打开 , 便 得 到 了 漂亮 的 网 格 ! 每 折 一 次 , 格子 数 就 翻 倍 , 折 4 次 就 能 得 到 16 个 格子 ! 


折 1 次 折 2 次 折 3 次 折 4 次 
vy 


折 4 次 就 可 得 到 
汪汪 |。 所 的 网 相 
更 
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你 每 折 一 次 ， 绘制 出 的 格子 数 都 翻 倍 ， 因 此 4 步 就 能 “绘制 ”出 16 个 格子 。 这 种 算法 的 运行 
时 间 是 多 少 呢 ? 请 搞 清 楚 这 两 种 算法 的 运行 时 间 之 后 ， 再 接着 往 下 读 。 


答案 如 下 : 算法 1 的 运行 时 间 为 0(n)， 算 法 2 的 运行 时 间 为 O(log n)。 


1.3.3 大 O 表示 法 指出 了 最 糟 情况 下 的 运行 时 间 


假设 你 使 用 简单 查找 在 电话 竹中 找 人 。 你 知道 ,简单 查找 的 运行 时 间 为 0(n)， 这 意味 着 在 最 
粮 情 况 下 ， 必 须 查 看 电话 敌 中 的 每 个 条 目 。 如 果 要 查找 的 是 Adit 一 一 电话 竹中 的 第 一 个 人 , 一 次 
就 能 找到 ， 无 需 查 看 每 个 条 目 。 考 虑 到 一 次 就 找到 了 Adit， 请 问 这 种 算法 的 运行 时 间 是 O(n) 还 是 
O(1) 呢 ? 

简单 查找 的 运行 时 间 总 是 为 O(n)。 查 找 Adit 时 ， 一 次 就 找到 了 ， 这 是 最 佳 的 情形 ， 但 大 O 表 
示 法 说 的 是 最 糟 的 情形 。 因 此 ,你 可 以 说 ,在 最 糟 情况 下 ,必须 查 看 电话 德 中 的 每 个 条 目 ， 对 应 
的 运行 时 间 为 0(n)。 这 是 一 个 保证 一 一 你 知道 简单 查找 的 运行 时 间 不 可 能 超过 O(n)。 


说 ” 明 
除 最 糟 情况 下 的 运行 时 间 外 ， 还 应 考虑 平均 情况 的 运行 时 间 ， 这 很 重要 。 最 糟 情况 和 平 


1.3.4 一些 常见 的 大 O 运行 时 间 
下 面 按 从 快 到 慢 的 顺序 列 出 了 你 经 常会 遇 到 的 5 种 大 0 运行 时 间 。 


口 O(log n)， 也 叫 对 数 时 间 ， 这 样 的 算法 包括 二 分 查找 。 
口 O(n)， 也 叫 线 性 时 间 ， 这 样 的 算法 包括 简单 查找 。 
口 O(n * log n)， 这 样 的 算法 包括 第 4 章 将 介绍 的 快速 排序 一 一 一 种 速度 较 快 的 排序 算法 。 
口 O(n”)， 这 样 的 算法 包括 第 2 章 将 介绍 的 选择 排序 一 一 一 种 速度 较 慢 的 排序 算法 。 
口 O(n!)， 这 样 的 算法 包括 接 下 来 将 介绍 的 旅行 商 问题 的 解决 方案 一 一 一 种 非常 慢 的 算法 。 
假设 你 要 绘制 一 个 包含 16 格 的 网 格 ， 且 有 5 种 不 同 的 算法 可 供 选 择 ， 这 些 算法 的 运行 时 间 如 
上 所 示 。 如 果 你 选择 第 一 种 算法 ,绘制 该 网 格 所 需 的 操作 数 将 为 4 (log 16=4)。 假设 你 每 秒 可 执 
行 10 次 操作 ， 那 么 绘制 该 网 格 需 要 0.4 秒 。 如 果 要 绘制 一 个 包含 1024 格 的 网 格 呢 ? 这 需要 执行 10 
(log 1024 = 10 ) 次 操作 ， 换 言 之 ， 绘 制 这 样 的 网 格 需要 1 秒 。 这 是 使 用 第 一 种 算法 的 情况 。 
第 二 种 算法 更 慢 ， 其 运行 时 间 为 O(n)。 即 要 绘制 16 个 格子 , 需要 执行 16 次 操作 ; 要 绘制 1024 
个 格子 ， 需 要 执行 1024 次 操作 。 执 行 这 些 操作 需要 多 少 秒 呢 ? 
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性 下 


下 面 按 从 快 到 慢 的 顺序 列 出 了 使 用 这 些 算法 绘制 网 格 所 需 的 时 间 : 


所 


格子 数 。 O(logq") ， 


nloan OW) Ow) 
Oloar) i 


16 04 动 1.6 才 6.4 却 25.6 动 6&6381 生 
256 0.% 动 25.6 冯 3.4 分 十 1@ 对 &ex 外 年 
1924 1.0 到 4.75 钙 1 了 分 种 1.2 天 5.4x1W 沧 


还 有 其 他 的 运行 时 间 ， 但 这 5 种 是 最 常见 的 。 
这 里 做 了 简化 ， 实 际 上 ， 并 不 能 如 此 干净 利索 地 将 大 0 运行 时 间 转 换 为 操作 数 ， 但 就 目前 而 


， 这 种 准确 度 足 够 了 。 等 你 学 习 其 他 一 些 算法 后 ， 第 4 章 将 回 过 头 来 再 次 讨论 大 0 表示 法 。 当 
， 我 们 获得 的 主要 启示 如 下 。 


口算 法 的 速度 指 的 并 非 时 间 ， 而 是 操作 数 的 增 速 。 
口 谈论 算法 的 速度 时 ， 我 们 说 的 是 随 着 输入 的 增加 ， 其 运行 时 间 将 以 什么 样 的 速度 增加 。 
D 算法 的 运行 时 间 用 大 0 表示 法 表示 。 

D O(log nn) 比 0(n) 快 ， 当 需要 搜索 的 元 素 越 多 时 ， 前 者 比 后 者 快 得 越 多 。 


练习 

使 用 大 O 表 示 法 给 出 下 述 各 种 情形 的 运行 时 间 。 

1.3 ”在 电话 竹中 根据 名 字 查 找 电 话 号 码 。 

1.4 在 电话 短 中 根据 电话 号 码 找 人 。( 提示 : 你 必须 查找 整个 电话 短 。 
1.5 阅读 电话 短 中 每 个 人 的 电话 号 码 。 


1.6 阅读 电话 短 中 姓名 以 A 打 头 的 人 的 电话 号 码 。 这 个 问题 比较 环 手 ， 它 涉及 第 4 章 的 概 
念 。 答 案 可 能 让 你 感到 惊讶 ! 


1.3.5 ”旅行 商 


阅读 前 一 节 时 ， 你 可 能 认为 根本 就 没有 运行 时 间 为 O(n!) 的 算法 。 让 我 来 证 明 你 错 了 ! 下 面 


就 是 一 个 运行 时 间 极 长 的 算法 。 这 个 算法 要 解决 的 是 计算 机 科学 领域 非常 著名 的 旅行 商 问 题 , 其 
计算 时 间 增 加 得 非常 快 ， 而 有 些 非常 聪明 的 人 都 认为 没有 改进 空间 。 


有 一 位 旅行 商 。 
他 需要 前 往 5 个 城市 。 


这 位 旅行 商 ( 姑且 称 之 为 Opus 吧 ) 要 前 往 这 5 个 城市 ， 同 时 要 确保 旅程 最 短 。 为 此 ， 可 考虑 
前 往 这 些 城 市 的 各 种 可 能 顺序 。 


\ a 
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对 于 每 种 顺序 ， 他 都 计算 总 旅程 ， 再 挑选 出 旅程 最 短 的 路 线 。5 个 城市 有 120 种 不 同 的 排列 方 
式 。 因 此 ， 在 涉及 5 个 城市 时 ， 解 决 这 个 问题 需要 执行 120 次 操作 。 涉 及 6 个 城市 时 ， 需 要 执行 720 
次 操作 (有 720 种 不 同 的 排列 方式 )。 涉 及 7 个 城市 时 ， 需 要 执行 3040 次 操作 ! 
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操作 数 激增 


(325464436 p08 


265252854812441,05843 632 中 832o0P 00 


推 而 广 之 ,涉及 n 个 城市 时 ,需要 执行 a! (za 的 阶乘 ) 次 操作 才能 计算 出 结果 。 因 此 运行 时 间 
为 O(n!)， 即 阶乘 时 间 。 除 非 涉及 的 城市 数 很 少 ， 否 则 需要 执行 非常 多 的 操作 。 如 果 涉 及 的 城市 
数 超过 100， 根 本 就 不 能 在 合理 的 时 间 内 计算 出 结 等 你 计算 出 结果 ， 太 阳 都 没 了 。 


这 种 算法 很 糟糕 ! Opus 应 使 用 别 的 算法 , 可 他 别 无 选择 。 这 是 计算 机 科学 领域 待 解 的 问题 之 
一 。 对 于 这 个 问题 ,目前 还 没有 找到 更 快 的 算法 ,， 有 些 很 聪明 的 人 认为 这 个 问题 根本 就 没有 更 巧 
妙 的 算法 。 面 对 这 个 问题 ， 我 们 能 做 的 只 是 去 找 出 近似 答案 ， 更 详细 的 信息 请 参阅 第 10 章 。 


最 后 需要 指出 的 一 点 是 ， 高 水 平 的 读者 可 研究 一 下 二 又 树 ， 这 在 最 后 一 章 做 了 简要 的 介绍 。 


1.4 小 结 


口 二 分 查找 的 速度 比 简单 查找 快 得 多 。 

口 O(log n) 比 O(n) 快 。 需 要 搜索 的 元 素 越 多 ， 前 者 比 后 者 就 快 得 越 多 。 
口 算法 运行 时 间 并 不 以 秒 为 单位 。 

口 算法 运行 时 间 是 从 其 增 速 的 角度 度量 的 。 

口 算法 运行 时 间 用 大 0 表示 法 表示 。 


第 2 章 


选择 排序 


口 学 习 两 种 最 基本 的 数据 结构 一 数组 和 链表 ， 它 们 无 处 不 在 。 第 1 章 使 用 了 数组 ， 其 他 各 
章 几 乎 也 都 将 用 到 数组 。 数 组 是 个 重要 的 主题 ， 一 定 要 高 度 重视 ! 但 在 有 些 情况 下 ， 使 
用 链表 比 使 用 数组 更 合适 。 本 章 冰 述 数组 和 链表 的 优 缺点 ， 让 你 能 够 根据 要 实现 的 算法 
选择 合适 的 一 个 。 

口 学 习 第 一 种 排序 算法 。 很 多 算法 仅 在 数据 经 过 排序 后 才 管 用 。 还 记得 二 分 查找 吗 ? 它 
能 用 于 有 序 元 素 列 表 。 本 章 将 介绍 选择 排序 。 很 多 语言 都 内 置 了 排序 算法 ， 因 此 你 基本 
上 不 用 从 头 开 始 编写 自己 的 版 本 。 但 选择 排序 是 下 一 章 将 介绍 的 快速 排序 的 基石 。 快 速 
排序 是 一 种 重要 的 算法 ， 如 果 你 熟悉 其 他 排序 算法 ， 理 解 起 来 将 更 容易 。 


Er 
AN 


需要 具备 的 知识 
要 明白 本 章 的 性 能 分 析 部 分 ， 必 须知 道 大 0 表示 法 和 对 数 。 如 果 你 不 懂 ， 建 议 回 过 头 去 阅 
读 第 1 章 。 本 书 余 下 的 篇 幅 都 会 用 到 大 0 表示 法 。 


2.1 ”内存 的 工作 原理 
假设 你 去 看 演出 ,需要 将 东西 寄存 。 寄 存 处 有 一 个 柜子 ,柜子 有 很 多 抽 屋 。 
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每 个 抽 屋 可 放 一 样 东 西 ， 你 有 两 样 东西 要 寄存 ， 因 此 要 了 两 个 抽 居 。 


先生 ， 你 可 心 使 用 这 两 个 抽 慰 
麻烦 奉 丙 个 抽 居 


现在 你 可 以 去 看 演出 了 ! 这 大 致 就 是 计算 机 内 存 的 工作 原理 。 计算机 就 像 是 很 多 抽 居 的 集合 
体 ， 每 个 抽 居 都 有 地 址 。 


fe0ffeeb 是 一 个 内 存单 元 的 地 址 。 


需要 将 数据 存储 到 内 存 时 ,你 请 求 计算 机 提供 存储 空间 , 计算 机 给 你 一 个 存储 地 址 。 需要 存 
储 多 项 数据 时 ， 有 两 种 基本 方式 一 一 数组 和 链表 。 但 它们 并 非 都 适用 于 所 有 的 情形 ， 因 此 知道 它 
们 的 差别 很 重要 。 接 下 来 介绍 数组 和 链表 以 及 它们 的 优 缺 点 。 


2.2 ”数组 和 链表 


有 时 候 , 需要 在 内 存 中 存储 一 系列 元 素 。 假 设 你 要 编写 一 个 管理 待 办 事 
项 的 应 用 程序 ， 为 此 需要 将 这 些 待 办 事项 存储 在 内 存 中 。 
应 使 用 数组 还 是 链表 呢 ? 鉴于 数组 更 容易 掌握 ， 我 们 先 将 待 办 事项 存 


储 在 数组 中 。 使 用 数组 意味 着 所 有 待 办 事项 在 内 存 中 都 是 相连 的 〈 紧 靠 在 
一 起 的 )。 


您 的 街 办 他 入 占用 的 
事 莱 奖章 内 在 
YY 


vv 


可 用 内 和 -> 


现在 假设 你 要 添加 第 四 个 待 办 事项 ， 但 后 面 的 那个 抽 屋 放 着 别人 的 东西 ! 
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这 个 地 讨 已 被 占用 ， 
ti 


这 就 像 你 与 朋友 去 看 电影 ， 找 到 地 方 就 坐 后 又 来 了 一 位 朋友 ,但 原来 坐 的 地 方 没有 空位 置 ， 
只 得 再 找 一 个 可 坐 下 所 有 人 的 地 方 。 在 这 种 情况 下 ， 你 需要 请 求 计算 机 重新 分 配 一 块 可 容纳 4 个 
待 办 事项 的 内 存 ， 青 将 所 有 待 办 事项 都 移 到 那里 。 


如 果 又 来 了 一 位 朋友 ， 而 当前 坐 的 地 方 也 没有 空位 ,你 们 就 得 再 次 转移 ! 真是 太 麻 烦 了 。 同 
样 ， 在 数组 中 添加 新 元 素 也 可 能 很 麻烦 。 如 果 没 有 了 空间 ,就 得 移 到 内 存 的 其 他 地 方 ， 因 此 添加 
新 元 素 的 速度 会 很 慢 。 一 种 解决 之 道 是 “ 预 留 座 位 ”: 即便 当前 只 有 3 个 待 办 事项 ， 也 请 计算 机 提 
供 10 个 位 置 ， 以 防 需 要 添加 待 办 事项 。 这样 ， 只 要 待 办 事项 不 超过 10 个 ， 就 无 需 转 移 。 这 是 一 个 
不 错 的 权 变 措施 ， 但 你 应 该 明白 ， 它 存在 如 下 两 个 缺点 。 


口 你 额外 请 求 的 位 置 可 能 根本 用 不 上 ， 这 将 浪费 内 存 。 你 没有 使 用 ， 别 人 也 用 不 了 。 
口 待 办 事项 超过 10 个 后 ， 你 还 得 转移 。 


因此 , 这 种 权宜 措施 虽然 不 错 , 但 绝 非 完美 的 解决 方案 。 对 于 这 种 问题 , 可 使 用 链表 来 解决 。 


2.2.1 链表 
链表 中 的 元 素 可 存储 在 内 存 的 任何 地 方 。 


A 


了 
上 : 
[加 面 5 


链表 的 每 个 元 素 都 存储 了 下 一 个 元 素 的 地 址 ， 从 而 使 一 系列 随机 的 内 存 地 址 串 在 一 起 。 


可 用 内 看、》 


串 在 一 起 的 内 存 地 址 


这 犹如 寻宝 游戏 。 你 前 往 第 一 个 地 址 ， 那 里 有 一 张 纸 条 写 着 “下 一 个 元 素 的 地 址 为 123”。 因 
， 你 前 往 地 址 123， 那 里 又 有 一 张 纸 条 ， 写 着 “下 一 个 元 素 的 地 址 为 847”， 以 此 类 推 。 在 链表 
ey 


使 用 链表 时 ,根本 就 不 需要 移动 元 素 。 这 还 可 避免 男 一 个 问题 。 假 设 你 与 五 位 朋友 去 看 一 部 
很 火 的 电影 。 你 们 六 人 想 坐 在 一 起 , 但 看 电影 的 人 较 多 , 没有 六 个 在 一 起 的 座位 。 使 用 数组 时 有 
时 就 会 遇 到 这 样 的 情况 。 假 设 你 要 为 数组 分 配 10 000 个 位 置 ， 内 存 中 有 10 000 个 位 置 ， 但 不 都 靠 
在 一 起 。 在 这 种 情况 下 ， 你 将 无 法 为 该 数组 分 配 内 存 ! 链表 相当 于 说 “我 们 分 开 来 坐 ”， 因 此 ， 

只 要 有 足够 的 内 存 空间 ， 就 能 为 链表 分 配 内 存 。 


链表 的 优势 在 插 和 人 元 素 方面 ， 那 数组 的 优势 又 是 什么 呢 ? 


2.2.2 ”数组 


排行 榜 网 站 使 用 捍 吕 的 手段 来 增加 页 面 浏览 量 。 它 们 不 在 一 个 页 面 中 
显示 整个 排行 榜 ， 而 将 排行 榜 的 每 项 内 容 都 放 在 一 个 页 面 中 ， 并 让 你 单 击 
Ne 项 内 容 。 例 如 ， 显 示 十 大 电视 反派 时 ， 不 在 一 个 页 面 中 显 

整个 排行 榜 ， 而 是 先 显 示 第 十 大 反派 (Newman )。 你 必须 在 每 个 页 面 中 
es 才能 看 到 第 一 大 反派 ( Gustavo Fring )。 这 让 网 站 能 够 在 10 个 页 WU 
面 中 显示 广告 ， 但 用 户 需要 单 击 Next 九 次 才能 看 到 第 一 个 ， 真 的 是 很 需 。 。 EVL CAT CE 
如 果 整 个 排行 槛 都 显示 在 一 个 页 面 中 ,将 方便 得 多 。 这 样 ， 用 户 可 单 击 排行 榜 中 的 人 名 来 获得 更 
详细 的 信息 。 


链表 存在 类 似 的 问题 。 在 需要 读 取 链表 的 最 后 一 个 元 素 时 ,你 不 能 直接 读 取 ， 因 为 你 不 知道 
它 所 处 的 地 址 ， 必 须 先 访问 元 素 #1， 从 中 获取 元 素 可 的 地 址 ， 再 访问 元 素 扣 并 从 中 获取 元 素 # 
的 地 址 ， 以 此 类 推 ,， 直 到 访问 最 后 一 个 元 素 。 需 要 同时 读 取 所 有 元 素 时 ,链表 的 效率 很 高 ; 你 读 
取 第 一 个 元 素 , 根据 其 中 的 地 址 再 读 取 第 二 个 元 素 ， 以 此 类 推 。 但 如 果 你 需要 跳跃 , 链表 的 效率 
真 的 很 低 。 


数组 与 此 不 同 : 你 知道 其 中 每 个 元 素 的 地 址 。 例 如 ， 假 设 有 一 个 数组 ， 它 包含 五 个 元 素 , 起 
始 地 址 为 00， 那 么 元 素 #5 的 地 址 是 多 少 呢 ? 
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包 合 五 个 先 系 的 数 但 


一 一 一 = 
通 计 下 本 导 ol 07 03 OF Yertt 民 | 


只 需 执行 简单 的 数学 运算 就 知道 : 04。 需 要 随机 地 读 取 元 素 时 ， 数 组 的 效率 很 高 ， 因 为 可 迅 
速 找到 数组 的 任何 元 素 。 在 链表 中 ,元 素 并 非 靠 在 一 起 的 ， 你 无 法 迅速 计算 出 第 五 个 元 素 的 内 存 
地 址 , 而 必须 先 访问 第 一 个 元 素 以 获取 第 二 个 元 素 的 地 址 , 再 访问 第 二 个 元 素 以 获取 第 三 个 元 素 
的 地 址 ， 以 此 类 推 ， 直 到 访问 第 五 个 元 素 。 


2.2.3 术语 
数组 的 元 素 带 编号 ， 编 号 从 0 而 不 是 1 开始 。 例 如 ， 在 下 面 的 数组 中 ， 元 素 20 的 位 置 为 1。 


[iol2zo\3ol4a| 


hp 4 2 3 


而 元 素 10 的 位 置 为 0。 这 通常 会 让 新 手 尝 头 转向 。 从 0 开始 让 基于 数组 的 代码 编写 起 来 更 容易 ， 
因此 程序 员 始 终 坚 持 这 样 做 。 几 乎 所 有 的 编程 语言 都 从 0 开始 对 数组 元 素 进 行 编号 。 你 很 快 就 会 
习惯 这 种 做 法 。 

元 素 的 位 置 称 为 索引 。 因 此 ,不 说 “元 素 20 的 位 置 为 1”"， 而 说 “元 素 20 位 于 索引 1 处 ”。 本 书 
将 使 用 索引 来 表示 位 置 。 


下 面 列 出 了 常见 的 数组 和 链表 操作 的 运行 时 间 。 


Om = 线 桩 对 间 
O 〇 CD = 常量 时 间 


问题 : 在 数组 中 插入 元 素 时 ,为何 运 行 时 间 为 O(n) 呢 ?假设 要 在 数组 开头 插入 一 个 元 素 ， 你 
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将 如 何 做 ? 这 需要 多 长 时 间 ? 请 阅读 下 一 节 ， 找 出 这 些 问 题 的 答案 ! 


练习 

2.1 假设 你 要 编写 一 个 记 账 的 应 用 程序 。 
1. 买 条 货 
2. 看 电影 
了 SJJ9C 会 迷 


你 每 天 都 将 所 有 的 支出 记录 下 来 ， 并 在 月 底 统计 支出 , 算 算 当 月 花 了 多 少 钱 。 因 此 ， 


你 执行 的 插入 操作 很 多 ， 但 读 取 操作 很 少 。 该 使 用 数组 还 是 链表 呢 ? 


2.2.4 在 中 间 插 入 
假设 你 要 证 待 办 事项 按 日 期 排列 。 之 前 ， 你 在 清单 未 尾 添加 了 待 办 事项 。 
但 现在 你 要 根据 新 增 待 办 事项 的 日 期 将 其 插入 到 正确 的 位 置 。 


无 序 有 序 
需要 在 中 间 插入 元 素 时 ,数组 和 链表 哪个 更 好 呢 ? 使 用 链表 时 ,插入 元 素 很 简单 ， 只 需 


它 前 面 的 那个 元 素 指向 的 地 址 。 
DA 入 
海 于 买 举 叶 


目 


了 


NN 


而 使 用 数组 时 ， 则 必须 将 后 面 的 元 素 都 向 后 移 。 
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需要 振 这 个 竺 办》 角 知 


享 大 也 加 到 过 时 因此 需要 将 这 个 竺 


YE 办事 硕 往 应 移 


肥 罗 | 


如 果 没 有 足够 的 空间 ,可 能 还 得 将 整个 数组 复制 到 其 他 地 方 ! 因此 ， 当 需要 在 中 间 插 入 元 素 
时 ， 链 表 是 更 好 的 选择 。 


2.2.5 删除 


如 果 你 要 删除 元 素 呢 ? 链表 也 是 更 好 的 选择 , 因为 只 需 修 改 前 一 个 元 素 指向 的 地 址 即 可 。 而 
使 用 数组 时 ， 删 除 元 素 后 ， 必 须 将 后 面 的 元 素 都 向 前 移 。 


不 同 于 捅 人, 删除 元 素 总 能 成 功 。 如 果 内 存 中 没有 足够 的 空间 ， 插 和 人 操作 可 能 失败 ,但 在 任 
何 情况 下 都 能 够 将 元 素 删除 。 


下 面 是 常见 数组 和 链表 操作 的 运行 时 间 。 


需要 指出 的 是 , 仅 当 能 够 立即 访问 要 删除 的 元 素 时 ,删除 操作 的 运行 时 间 才 为 0(1)。 通 常 我 
们 都 记录 了 链表 的 第 一 个 元 素 和 最 后 一 个 元 素 ， 因 此 删除 这 些 元 素 时 运行 时 间 为 0(1)。 


数组 和 链表 哪个 用 得 更 多 呢 ?” 显 然 要 看 情况 。 但 数组 用 得 很 多 ， 因 为 它 支 持 随机 访问 。 有 两 
种 访问 方式 : 随机 访问 和 顺序 访问 。 顺序 访问 意味 着 从 第 一 个 元 素 开始 逐个 地 读 取 元 素 。 链表 只 
能 顺序 访问 : 要 读 取 链 表 的 第 十 个 元 素 , 得 先 读 取 前 九 个 元 素 ， 并 沿 链 接 找到 第 十 个 元 素 。 随 机 
访问 意味 着 可 直接 跳 到 第 十 个 元 素 。 本 书 经 常 说 数组 的 读 取 速度 更 快 , 这 是 因为 它们 支持 随机 访 
问 。 很 多 情况 都 要 求 能 够 随机 访问 , 因此 数组 用 得 很 多 。 数组 和 链表 还 被 用 来 实现 其 他 数据 结构 ， 
这 将 在 本 书后 面 介绍 。 


练习 
2.2 


2.3 


2.4 


2.5 


假设 你 要 为 饭店 创建 一 个 接受 顾客 点 菜单 的 应 用 程序 。 这 个 应 用 程序 存储 一 系列 点 菜 
单 。 服 务 员 添加 点 菜单 ， 而 厨师 取出 点 菜单 并 制作 菜肴 。 这 是 一 个 点 菜单 队列 : 服务 
员 在 队 尾 添 加 点 菜单 ， 厨 师 取 出 队列 开头 的 点 菜单 并 制作 菜肴 。 


你 使 用 数组 还 是 链表 来 实现 这 个 队列 呢 ? ( 提示 : 链表 擅长 插入 和 删除 ， 而 数组 擅长 
随机 访问 。 在 这 个 应 用 程序 中 ， 你 要 执行 的 是 哪些 操作 呢 ? ) 


我 们 来 做 一 个 思考 实验 。 假 设 Facebook 记 录 一 系列 用 户 名 ， 每 当 有 用 户 试图 登录 
Facebook 时 ， 都 查找 其 用 户 名 ， 如 果 找 到 就 允许 用 户 登 录 。 由 于 经 常 有 用 户 登 录 
Facebook， 因 此 需要 执行 大 量 的 用 户 名 查找 操作 。 假 设 Facebook 使 用 二 分 查找 算法 ， 
而 这 种 算法 要 求 能 够 随机 访问 一 一 立即 获取 中 间 的 用 户 名 。 考 虑 到 这 一 点 ， 应 使 用 数 
组 还 是 链表 来 存储 用 户 名 呢 ? 


经 常 有 用 户 在 Facebook 注 册 。 假 设 你 已 决定 使 用 数组 来 存储 用 户 名 ， 在 插入 方面 数组 
有 何 缺 点 呢 ? 具体 地 说 ， 在 数组 中 添加 新 用 户 将 出 现 什么 情况 ? 


实际 上 ，Facebook 存 储 用 户 信息 时 使 用 的 既 不 是 数组 也 不 是 链表 。 假 设 Facebook 使 用 
的 是 一 种 混合 数据 : 链表 数组 。 这 个 数组 包含 26 个 元 素 ， 每 个 元 素 都 指向 一 个 链表 。 
例如 , 该 数组 的 第 一 个 元 素 指 向 的 链表 包含 所 有 以 A 打 头 的 用 户 名 , 第 二 个 元 素 指向 的 
链表 包含 所 有 以 B 打 头 的 用 户 名 ， 以 此 类 推 。 


这 个 链 瑚 包 合 
天 呈 和 .AM 打头 
[ror 
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IE 


风 产 名 


假设 AditB 在 Facebook 注 册 ， 而 你 需要 将 其 加 入 前 述 数据 结构 中 。 因 此 ， 你 访问 数组 的 
第 一 个 元 素 , 再 访问 该 元 素 指向 的 链表 , 并 将 AditB 添 加 到 这 个 链表 未 尾 。 现 在 假设 你 
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要 查找 Zakhir 再 。 因 此 你 访问 第 26 个 元 素 ， 再 在 它 指向 的 链表 ( 该 链表 包含 所 有 以 z 打 
头 的 用 户 名 ) 中 查找 Zakhir H。 

请 问 ， 相 比 于 数组 和 链表 ， 这 种 混合 数据 结构 的 查找 和 插入 速度 更 慢 还 是 更 快 ? 你 不 

必 给 出 大 0 运行 时 间 ， 只 需 指 出 这 种 新 数据 结构 的 查找 和 插 人 速度 更 快 还 是 更 慢 。 Se 


2.3 选择 排序 

有 了 前 面 的 知识 ， 你 就 可 以 学 习 第 二 种 算法 一 ”选择 排序 了 。 要 理 
解 本 节 的 内 容 ， 你 必须 熟悉 数组 、 链 表 和 大 0 表示 法 。 

假设 你 的 计算 机 存储 了 很 多 乐曲 。 对 于 每 个 乐队 ， 你 都 记录 了 其 作 
品 被 播放 的 次 数 。 


播放 
~go-~ 次 数 


RADIOHEAD 


KisHoREe KuMAR 


THE BLACK KEYS 

NEUTRAL MILK HoTEL 
二 BECK 
THE STROKES 


wiLco |111 
你 要 将 这 个 列表 按 播放 次 数 从 多 到 少 的 顺序 排列 ， 从 而 将 你 喜欢 的 乐队 排序 。 该 如何 做 呢 ? 
一 种 办 法 是 遍历 这 个 列表 , 找 出 作品 播放 次 数 最 多 的 乐队 ,并 将 该 乐队 添加 到 一 个 新 列表 中 。 


ww 播放 名 神志 后 昌 。 半 芝 


RADIOHEAD | 156 


RAPDPICHEAP 


KisHORE KUMAR 
THE BLACK KEYS 
NEJUTRAL MILK HoTEL 


THE STRoKES 
WILCO 


1. RMADS9OHEAD 是 播 


， 3 2 将 基 加 六 到 新 列 
放 次 束 最 多 的 东 从 态 中 


再 次 这 样 做 ， 找 出 播放 次 数 第 二 多 的 乐队 。 


一 了 9 一 播放 播放 
囊 了 排序 语 多 次 区 


RADIONEAD 
kISHORE KoMAR 


KISHORE KJMAR 


THE BLACK KEYS 


NEUTRAL MICLK HoreL 


THE STROKES 


WILCO 111 


1 shokE 全 
县 海水 水 藉 、 


系 认 
继续 这 样 做 ， 你 将 得 到 一 个 有 序列 表 。 
-0 说 


RNADoNEAD 


K\suopgE FuMAR 


证 HE StRoKES 


THE BLACK KEYS 


下 面 从 计算 机 科学 的 角度 出 发 ,看 看 这 需要 多 长 时 间 。 别 忘 了 ，O(m) 时 间 意 味 着 查看 列表 中 
的 每 个 元 素 一 次 。 例 如 ， 对 乐队 列表 进行 简单 查找 时 ， 意 味 着 每 个 乐队 都 要 查看 一 次 。 


|. RADOHEAD 

2 . KISHORE KUMAR 

了 .THE BLACK KEY5 /个 先 泰 
4., NELTEAL MILK HSTEL 

5. BEcK 

&. THE STRoKES 


4 WiLiO 
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要 找 出 播放 次 数 最 多 的 乐队 ,必须 检查 列表 中 的 每 个 元 素 。 正 如 你 刚才 看 到 的 , 这 需要 的 时 
间 为 0m)。 因 此 对 于 这 种 时 间 为 0(n) 的 操作 ， 你 需要 执行 n 次 。 


RADIONERD 


由 1，KISHopRE komAR 
,THRE ST 
2 .Fisheee 下 owhe_ dG I porES | 
3. THE BLACK KEYS a i » 
4 NESTEAL MILK HOTEL > 4 Beck vs 
5, Beck 5. ThE stpokEs 
&. THE STRoKES ED 
4. wiLco 


OQ) Om On 
/次 


需要 的 总 时 间 为 O(n x n)， 即 O(n”)。 

排序 算法 很 有 用 。 你 现在 可 以 对 如 下 内 容 进行 排序 : 
口 电话 禾 中 的 人 名 

口 旅行 日 期 

口 电子 邮件 ( 从 新 到 | 日 ) 


需要 检查 的 元 素数 越 来 越 少 


随 着 排序 的 进行 , 每 次 需要 检查 的 元 素数 在 逐渐 减少 , 最 后 一 次 需要 检查 的 元 素 都 只 有 一 
个 。 既 然 如 此 ， 运 行 时 间 怎 么 还 是 O(n ) 呢 ?这 个 问题 问 得 好 ， 这 与 大 QO 表示 法 中 的 常数 相关 。 
第 4 章 将 详细 解释 ， 这 里 只 简单 地 说 一 说 。 

你 说 得 没 错 ， 并 非 每 次 都 需要 检查 1 个 元 素 。 第 一 次 需要 检查 1 个 元 素 ， 但 随后 检查 的 元 素 
数 依 次 为 n 一 1,n 一 2,…,2 和 1 平均 每 次 检查 的 元 素数 为 /2 x m, 因此 运行 时 间 为 O(n x 1/2 x n)。 
但 大 0 表示 法 省 略 诸如 1/2 这 样 的 常数 ( 有 关 这 方面 的 完整 讨论 , 请 参阅 第 4 章 )， 因 此 简单 地 写 
作 O(n x nn) 或 O(n )。 


选择 排序 是 一 种 灵巧 的 算法 ,但 其 速度 不 是 很 快 。 快 速 排序 是 一 种 更 快 的 排序 算法 ， 其 运行 
时 间 为 O(n log 中， 这 将 在 下 一 章 介 绍 。 
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示例 代码 


前 面 没 有 列 出 对 乐队 进行 排序 的 代码 , 但 下 述 代 码 提供 了 类 似 的 功能 : 将 数组 元 素 按 从 小 到 
大 的 顺序 排列 。 先 编写 一 个 用 于 找 出 数组 中 最 小 元 素 的 函数 。 


def findSsmallest (arr): 


smallest = arr[0] < 存储 最 小 的 值 
smallest_index = 0 ee 存储 最 小 元 素 的 索引 


for i in range(l1l, len(arr)): 
if arr[i] < smallest: 
smallest = arr[il] 
smallest_index = i 
return smallest_index 


现在 可 以 使 用 这 个 函数 来 编写 选择 排序 算法 了 。 


def selectionSort (arr): 挟 …… 对 数组 进行 排序 
newArr = [] 
for i in range(lenl(arr)): 本 所 
找 出 数组 中 最 小 的 元 素 ， 
smallest = findSsmallest (arr) > EE 并 将 其 加 入 到 新 数组 中 


newArr.append(arr.pop (smallest)) 
return newArr 


print selectionSort([5, 3, 6, 2, 10]) 


2.4 小 结 


口 计算 机 内 存 犹如 一 大 堆 抽 层 。 

口 需要 存储 多 个 元 素 时 ， 可 使 用 数组 或 链表 。 

口 数组 的 元 素 都 在 一 起 。 

口 链表 的 元 素 是 分 开 的 ， 其 中 每 个 元 素 都 存储 了 下 一 个 元 素 的 地 址 。 
口 数组 的 读 取 速度 很 快 。 

口 链表 的 插入 和 删除 速度 很 快 。 

口 在 同一 个 数组 中 ， 所 有 元 素 的 类 型 都 必须 相同 ( 都 为 Int、double 等 )。 


本 章 内 容 
口 学 习 递 归 。 递 归 是 很 多 算法 都 使 用 的 一 种 编程 方法 ， 是 理解 本 书后 续 内 容 的 关键 。 
口 学 习 如 何 将 问题 分 成 基线 条 件 和 递归 条 件 。 第 4 章 将 介绍 的 分 而 治之 策略 使 用 这 种 简单 的 


概念 来 解决 棘手 的 问题 。 


种 优雅 的 问题 解决 方法 。 递归 是 我 


我 怀 着 激动 的 心情 编写 本 章 ,， 因 为 它 介绍 的 是 递归 
最 喜欢 的 主题 之 一 ， 它 将 人 分 成 三 个 截然 不 同 的 阵营 : 恨 它 的 、 爱 它 的 以 及 恨 了 几 年 后 又 爱 上 它 
的 。 我 本 人 属于 第 三 个 阵营 。 为 帮助 你 理解 ， 现 有 以 下 建议 。 
口 本 章 包 含 很 多 示例 代码 ， 请 运行 它们 ， 以 便 搞 清楚 其 中 的 工作 原理 。 
口 请 用 纸 和 笔 逐 步 执行 至 少 一 个 递归 函数 ， 就 像 这 样 : 我 使 用 5 来 调用 factorial, 这 将 使 
用 4 调用 factorial， 并 将 返回 结果 乘 以 5， 以 此 类 推 。 这 样 逐步 执行 递归 函数 可 搞 明 白 


递归 函数 的 工作 原理 。 
本 章 还 包含 大 量 伪 代 码 。 伪 代码 是 对 手头 问题 的 简要 描述 ， 看 着 像 代码 ， 但 其 实 更 接近 
自然 语言 。 
3.1 递归 


假设 你 在 祖母 的 阁楼 中 翻 箱 倒 柜 ， 发现 了 一 个 上 锁 的 神秘 手提 箱 。 


30 第 3 章 递归 


Zr 人 二 
LT SIIL I GY 


E 
乡 
各 
人 
下 
)* 
到 
zz 


NS WV 
N Na VO 


最 外 面 
的 会 子 


这 个 盒子 里 有 盒子 ， 而 盒子 里 的 盒子 又 有 盒子 。 钥 是 就 在 某 个 盒子 中 。 为 找到 钥匙 ， 你 将 使 
用 什么 算法 ?” 先 想 想 这 个 问题 ， 再 接着 往 下 看 。 


下 面 是 一 种 方法 。 


只 要 金子 堆 不 室 


如 办 找到 的 笑 
， 就 将 水 


(D 创建 一 个 要 查找 的 盒子 堆 。 
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(2) 从 盒子 堆 取 出 一 个 盒子 ， 在 里 面 找 。 

(3) 如 果 找 到 的 是 盒子 ， 就 将 其 加 入 盒子 堆 中 ， 以 便 以 后 再 查找 。 
(4) 如 果 找 到 钥匙 ， 则 大 功 告 成 ! 

(5) 回 到 第 二 步 。 

下 面 是 另 一 种 方法 。 


详细 检查 金子 
内 掏 每 样 节 面 


(1) 检查 盒子 中 的 每 样 东 西 。 
(2) 如 果 是 盒子 ， 就 回 到 第 一 步 。 
(3) 如 果 是 钥匙 ， 就 大 功 告 成 ! 


在 你 看 来 ， 哪 种 方法 更 容易 呢 ? 第 一 种 方法 使 用 的 是 while 循 环 : 只 要 盒子 堆 不 空 ， 就 从 中 
取 一 个 盒子 ， 并 在 其 中 仔细 查找 。 


def 1ook_for_key (main box): 
pile = main box.make a pile to_look through() 
while pile is not empty: 
box = pile.grab a pox() 
for item in box: 
if item.is_ a box!(): 
pile.append (item) 
elif item.is a key(): 
print "found the key!" 


第 二 种 方法 使 用 递归 一 一 函数 调用 自己 ， 这 种 方法 的 伪 代 码 如 下 。 


def look_ for_key (box): 
for item in box: 
if item.is_a_ box(): 
look_for_key (item) ee 递归 ! 
elif item.is a key() : 
print "found the key!" 


这 两 种 方法 的 作用 相同 , 但 在 我 看 来 , 第 二 种 方法 更 清晰 。 递 归 只 是 让 解决 方案 更 清晰 ， 并 
没有 性 能 上 的 优势 。 实 际 上 ， 在 有 些 情况 下 ， 使 用 循环 的 性 能 更 好 。 我 很 喜欢 Leigh Caldwell 在 
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Stack Overflow 上 说 的 一 句 话 :“ 如 果 使 用 循环 ， 程 序 的 性 能 可 能 更 高 ;如 果 使 用 递归 ， 程 序 可 


更 容易 理解 。 如 何 选择 要 看 什么 对 你 来 说 更 重要 。”" 
很 多 算法 都 使 用 了 递归 ， 因 此 理解 这 种 概念 很 重要 。 


3.2 ”基线 条 件 和 递归 条 件 


由 于 递归 函数 调用 自己， 因此 编写 这 样 的 函数 时 很 容易 出 错 ， 进 而 导致 
无 限 循环 。 例 如 ， 假 设 你 要 编写 一 个 像 下 面 这 样 倒计时 的 函数 。 

过 32 

为 此 ， 你 可 以 用 递归 的 方式 编写 ， 如 下 所 示 。 

def countdown (i): 


PE 入 
countdown (i-1) 


如 果 你 运行 上 述 代码 ， 将 发 现 一 个 问题 : 这 个 函数 运行 起 来 没完 没 了 ! 


几 COUHtIOWH 


> A OE 


(要 让 脚本 停止 运行 ， 可 按 Ctrl+C。) 


台 已 
月 


无 限 循环 


编写 递归 函数 时 ， 必 须 告 诉 它 何 时 停止 递归 。 正 因为 如 此 ,每 个 递归 函数 都 有 两 部 分 : 基线 


条 件 (base case ) 和 递归 条 件 (recursive case ) 。 递 归 条 件 指 的 是 函数 调用 自己 ， 而 基线 条 件 则 


指 的 是 函数 不 再 调用 自己 ， 从 而 避免 形成 无 限 循 环 。 
我 们 来 给 函数 countdown 添 加 基线 条 件 。 


def countdown (i): 


rint Ti 
if i <= 0: 《<……… 基线 条 件 
return 
else: 才 …….….… 递归 条 件 


countdown (i-1) 


现在 ， 这 个 函数 将 像 预期 的 那样 运行 ， 如 下 所 示 。 


人 人参 见 http:/stackoverflow.comy/a/72694/139117。 
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否则 奈 风 ji-1 调 内 COUHMtzdOWH 


个 


递 亲 奈 件 
基线 铭 件 


3.3 栈 
本 节 将 介绍 一 个 重要 的 编程 概念 调用 栈 (call stack ) 。 调 用 
栈 不 仅 对 编程 来 说 很 重要 ， 使 用 递归 时 也 必须 理解 这 个 概念 。 
假设 你 去 野外 烧烤 ， 并 为 此 创建 了 一 个 待 办 事项 清单 一 一 一 笃 


本 书 之 前 讨论 数组 和 链表 时 ,也 有 一 个 待 办 事项 清单 。 你 可 将 待 办 事 
KO > 项 添加 到 该 清单 的 任何 地 方 , 还 可 删除 任何 一 个 待 办 事项 。 一 符 便 条 要 简 
NN 


ee 单 得 多 : 搬入 的 待 办 事项 放 在 清单 的 最 前 面 ; 读 取 待 办 事项 时 ,你 只 读 取 
最 上 面 的 那个 ,并 将 其 删除 。 因 此 这 个 待 办 事项 清单 只 有 两 种 操作 : 压 入 
(搬入) 和 弹出 〈 删 除 并 读 取 )。 


不 六 古 类 
在 最 上 面 添加 出 除 并 阅读 最 上 面 
新 网 街 办 事 匡 约 街 办 事 匡 


下 面 来 看 看 如 何 使 用 这 个 待 办 事项 清单 。 


2 


TA ® 
= foo = Ba 
从 我 中 弹出 一 个 招 据 这 个 竺 办 事 一 一 
浇 个 重 狂 


这 种 数据 结构 称 为 栈 。 栈 是 一 种 简单 的 数据 结构 ， 刚 才 我 们 一 直 在 使 用 它 ， 却 没有 意识 到 ! 
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3.3.1 调用 栈 


计算 机 在 内 部 使 用 被 称 为 调用 栈 的 栈 。 我 们 来 看 看 计算 机 是 如 何 使 用 调用 栈 的 。 下 面 是 一 个 
简单 的 函数 。 


def greet (name): 
print "hello, " + name + "!" 
greet2 (name) 
print "getting ready to say bye..." 
bye() 


这 个 函数 问候 用 户 ， 再 调用 另外 两 个 函数 。 这 两 个 函数 的 代码 如 下 。 


def greet2 (name) : 
print "how are you, " + name + "?" 
def bye() : 
print "ok bye!" 


下 面 详 细 介绍 调用 函数 时 发 生 的 情况 


说 明 
在 Python 中 ，ptrint 是 一 个 函数 ， 但 出 于 简化 考虑 ， 这 里 假设 它 不 是 函数 。 你 也 这 样 假 
设 就 行 了 。 


假设 你 调用 greet ("maggie")， 计算 机 将 首先 为 该 也 数 调用 分 配 一 块 内 存 。 


我 们 来 使 用 这 些 内 存 。 变 量 name 被 设置 为 naggie， 这 需要 存储 到 内 存 中 


NArE: | MGeIE 


每 当 你 调用 函数 时 , 计算 机 都 像 这 样 将 函 aa 量 的 值 存储 到 内 存 中 。 接 下 来 ， 
你 打印 hello, maggie!， 再 调用 greet2 ("maggie") 。 同 样 ， 计 算 机 也 为 这 个 函数 调用 分 配 一 
块 内 存 。 


当前 肋 萄 调用 


~ 


计算 机 使 用 一 个 栈 来 表示 这 些 内 存 块 ， 其 中 第 三 个 内 存 块 位 于 第 一 个 内 存 块 上 面 。 你 
how are you，maggie?， 然 后 从 函数 调用 返回 。 此 时 ， 栈 项 的 内 存 块 被 弹出 。 


/ 


Em 


现在 , 栈 顶 的 内 存 块 是 函数 greet 的 ,这 意味 着 你 返回 到 了 函数 greet 。 当 你 调用 函数 greet2 
时 ， 函 数 greet 只 执行 了 一 部 分 。 这 是 本 的 一 个 重要 概念 : 调用 另 一 个 函数 时 ， 当 前 函数 暂停 
并 处 于 未 完成 状态 。 该 函数 的 所 有 变量 的 值 都 还 在 内 存 中 。 执 行 完 函数 greet2 后 ， 你 回 到 函数 


greet ， 并 从 离开 的 地 方 开始 接着 往 下 执行 : 首先 打印 getting ready to say bye..， 再 调用 
疯 数 bye。 


在 栈 顶 添加 了 函数 bye 的 内 存 块 。 然 后 ， 你 打印 ok bye! 


， 并 从 这 个 函数 返回 。 
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现在 你 又 回 到 了 洱 数 greet 。 由 于 没有 别 的 事情 要 做 ,你 就 从 函数 greet 返 回 。 这 个 栈 用 于 


存储 多 个 函数 的 变量 ， 被 称 为 调用 栈 。 


练习 
3.1 根据 下 面 的 调用 栈 ， 你 可 获得 哪些 信息 ? 


下 面 来 看 看 递归 函数 的 调用 栈 。 


3.3.2 ”递归 调用 栈 


递归 函数 也 使 用 调用 栈 ! 来 看 看 递归 函数 factorial 的 调用 栈 。factorial(5) 写 作 $!， 其 
定义 如 下 : 5$!=5Sx*4x*3x*2x*1。 同 理 ,factorial(3) 为 3*2 * 1。 下 面 是 计算 阶乘 的 递归 函数 。 


def fact (x): 
二 Ff. 三 三 证 
return 1 
else 
return x * fact (x-1) 
EE 指出 了 当前 执行 


下 面 来 详细 分 析 调 用 fact (3 ) 时 调用 栈 是 如 何 变化 的 。 别 忘 了 , 栈 顶 的 方 放 
到 了 什么 地 方 。 


代码 调用 我 
3 FAcT 第 一 次 调用 /Oct 
fact( ) [x Ts | hb3 
f 让 
if x =- [x1s] 
Se 
a 
[x 1 2 


递 亲 调 用 return Xs fact (x -1) [recr | 


et | x [3 
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现在 位 于 对 向 dt 的 第 最 上 面 的 约束 调用 
二 次 调用 中 。X 为 7 是 当前 所 处 的 调 风 
说 明 ， 两 个 吹 惹 调 内 都 
消 变 量 X， 但 这 哮 X 变 量 
的 值 不 同 
下 在 这 个 调用 中 ， 不 能 访 
习 这 全 调用 的 X 变 量 ， 
Feturn X 米 fact& ]) 了 X 变 量 ， 反 
if X==1: 
BE 这 是 从 搞 中 弹 兴 的 第 一 
个 方块 ， 这 总 味 着 将 最 
现 译 消 三 全 对 faqct 先 从 这 个 调用 这 回 
的 调用 ， 但 还 没 霄 
一 个 调用 佬 蒜 捕 国 ] 
放 脏 我们 刚 
从 和 叶 这 回 的 ”一 一 一 vy 
葬 苑 调用 featuocn 又 水 fac (x-D EA < 一 返回 2 
3 
Sn 四 [x13| 
return xX* fa (xD < 运 画 6 
X 为 了 


这 个 吗 孝 调 
风 返 回 2 
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TIRE 三 居 


注意 ， 每 个 fact 调 用 都 有 自己 的 x 在 


之 里 6 


栈 在 递归 中 扮演 着 重要 角色 。 在 本 章 开 头 的 示例 中 ,有 两 种 寻找 钥匙 的 方法 。 下 面 再 次 列 出 


第 一 种 方法 。 


如 果 茂 开 的 是 
例子， 就 将 站 
放 六 金子 准 


使 用 这 种 方法 时 ， 你 创建 一 个 待 查找 的 盒子 夫 


只 要 金子 堆 不 室 


有 取 内 一 个 金 了 


个 函数 调用 中 不 能 访问 男 一 个 的 x 变量 。 


E， 因 此 你 始终 知道 还 有 哪些 盒子 需要 查找 。 


接 下 素 要 查访 
的 金子 


但 使 用 递归 方法 时 ， 没 有 人 留 子 堆 


如 果 是 令 至， 
则 上 大功 专 族 
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既然 没有 盒子 堆 ， 那 算法 怎么 知道 还 有 哪些 盒子 需要 查找 呢 ? 下 面 是 一 个 例子 。 


ys A 


在 这 个 金子 中 你 发 
现 了 会 子 和 C 


> 
SA 
0 | 
你 检查 铺子 DD 


此 时 ,调用 栈 类 似 于 下 面 这 样 。 


原来 “盒子 堆 ” 存 储 在 了 栈 中 ! 这 个 栈 包含 未 完成 的 函数 调用 ,每 个 函数 调用 都 包含 还 未 检 
查 完 的 盒子 。 使 用 栈 很 方便 ， 因 为 你 无 需 自己 跟踪 盒子 堆 一 一 栈 替 你 这 样 做 了 。 
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使 用 栈 虽然 很 方便 , 但 是 也 要 付出 代价 : 存储 详尽 的 信息 可 能 占用 大 量 的 内 存 。 每 个 函数 调 
用 都 要 占用 一 定 的 内 存 ， 如 果 栈 很 高 ， 就 意味 着 计算 机 存储 了 大 量 函 数 调 用 的 信息 。 在 这 种 情况 
下 ， 你 有 两 种 选择 。 


口 重新 编写 代码 ， 转 而 使 用 循环 。 
口 使 用 尾 递 归 。 这 是 一 个 高 级 递归 主题 ， 不 在 本 书 的 讨论 范围 内 。 另 外 ， 并 非 所 有 的 语言 


都 支持 尾 递 归 。 
练习 
3.2 ”假设 你 编写 了 一 个 递归 函数 ， 但 不 小 心 导致 它 没完 没 了 地 运行 。 正 如 你 看 到 的 ， 对 于 
每 次 函数 调用 ， 计 算 机 都 将 为 其 在 栈 中 分 配 内 存 。 递 归 函 数 没 完 没 了 地 运行 时 ， 将 给 
栈 带 来 什么 影响 ? 


3.4 小 结 


口 递归 指 的 是 调用 自己 的 函数 。 

口 每 个 递归 函数 都 有 两 个 条 件 : 基线 条 件 和 递归 条 件 。 
口 栈 有 两 种 操作 : 压 人 和 弹出 。 

口 所 有 水 数 调 用 都 进入 调用 栈 。 

口 调用 栈 可 能 很 长 ， 这 将 占用 大 量 的 内 存 。 
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六 
刀 
算法 学 家 遇 到 这 种 问题 时 ， 不 会 就 此 放弃 ,而 是 尝试 使 用 掌握 的 各 种 问题 解决 方法 来 找 
出 解决 方案 。 分 而 治之 是 你 学 习 的 第 一 种 通用 的 问题 解决 方法 。 
口 学 习 快 速 排序 一 一 种 常用 的 优雅 的 排序 算法 。 快 速 排序 使 用 分 而 治之 的 策略 。 


口 学 习 分 而 治之 。 有 时 候 ， 你 可 能 会 遇 到 使 用 任何 已 知 的 算法 都 无 法 解决 的 问题 。 优 秀 的 
算 ~ 


前 一 章 深入 介绍 了 递归 ,本 章 的 重点 是 使 用 学 到 的 新 技能 来 解决 问题 。 我 们 将 探索 分 而 冶 之 
( divide and conquer，D&C ) 一 一 一 种 著名 的 递归 式 问题 解决 方法 。 

本 书 将 深入 算法 的 核心 。 只 能 解决 一 种 问题 的 算法 毕 况 用 处 有 限 , 而 D&C 提供 了 解决 问题 的 
思路 ， 是 另 一 个 可 供 你 使 用 的 工具 。 面 对 新 问题 时 ， 你 不 再 束手无策 ， 而 是 自问 :“ 使 用 分 而 治 
之 能 解决 吗 ? ” 


在 本 章 末尾 , 你 将 学 习 第 一 个 重要 的 D&C 算法 一 一 快速 排序 。 快速 排序 是 一 种 排序 算法 ， 
度 比 第 2 章 介绍 的 选择 排序 快 得 多 ， 实 属 优雅 代码 的 典范 。 


遍 


4.1 分 而 治之 

D&C 并 不 那么 容易 掌握 ， 我 将 通过 三 个 示例 来 介绍 。 首 先 ， 
介绍 一 个 直观 的 示例 ; 然后 , 介绍 一 个 代码 示例 , 它 不 那么 好 看 ， 
但 可 能 更 容易 理解 ; 最 后 , 详细 介绍 快速 排序 一 一 一 种 使 用 D&C 
的 排序 算法 。 

假设 你 是 农场 主 ， 有 一 小 块 土地 。 
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你 要 将 这 块 地 均匀 地 分 成 方块 , 且 分 出 的 方块 要 尽 可 能 大 。 显然 ,下面 的 分 法 都 不 符合 要 求 。 


分 生 素 的 不 是 ts 
方 快 
如 何 将 一 块 地 均匀 地 分 成 方块 ， 并 确保 分 出 的 方块 是 最 大 的 呢 ? 使 用 D&C 策略 ! D&C 算法 
是 递归 的 。 使 用 D&C 解决 问题 的 过 程 包 括 两 个 步 又 。 
(1) 找 出 基线 条 件 ， 这 种 条 件 必须 尽 可 能 简单 。 
(2) 不 断 将 问题 分 解 〈 或 者 说 缩小 规模 )， 直 到 符合 基线 条 件 。 
下 面 就 来 使 用 D&C 找 出 前 述 问题 的 解决 方案 。 可 你 能 使 用 的 最 大 方块 有 多 大 呢 ? 


首先 ， 找 出 基线 条 件 。 最 容易 处 理 的 情况 是 ， 一 条 边 的 长 度 是 另 一 条 边 的 整数 倍 。 
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如 果 一 边 长 25 m， 男 一 边 长 50 m， 那 么 可 使 用 的 最 大 方块 为 25 mx25 m。 换 言 之 ， 可 以 将 
这 块 地 分 成 两 个 这 样 的 方块 。 

现在 需要 找 出 递归 条 件 ， 这 正 是 D&C 的 用 武之 地 。 根 据 D&C 的 定义 ， 每 次 递归 调用 都 必须 
缩小 问题 的 规模 。 如 何 缩小 前 述 问 题 的 规模 呢 ? 我 们 首先 找 出 这 块 地 可 容纳 的 最 大 方块 。 


两 个 方块 余下 网 土地 


LY NN 
| 
&G40m 64Pn 400m 


你 可 以 从 这 块 地 中 划 出 两 个 640 m x 640 m 的 方块 ， 同 时 余下 一 小 块 地 。 现 在 是 顿悟 时 刻 : 何 
不 对 余下 的 那 一 小 块 地 使 用 相同 的 算法 呢 ? 


64 9 


64pm 


Sw Wy 
NN 
NN YM 


Co 
了 9 人 
余下 的 需要 唱 分 的 二 地 


最 初 要 划分 的 土地 尺寸 为 1680 m x 640 m， 而 现在 要 划分 的 土地 更 小 ， 为 640 m x 400 m。 适 
用 于 这 小 块 地 的 最 大 方块 ,也 是 适用 于 整 块 地 的 最 大 方块 。 换 言 之 , 你 将 均匀 划分 1680 m x 640 m 


土地 的 问题 ， 简 化 成 了 均匀 划分 640 m x 400 m 士 地 的 问题 ! 


欧 几 里 得 算法 
前 面 说 “适用 于 这 小 块 地 的 最 大 方块 ， 也 是 适用 于 整 块 地 的 最 大 方块 ， 如 果 你 觉得 这 一 
点 不 好 理解 , 也 不 用 担心 。 这 确实 不 好 理解 ,但 遗憾 的 是 , 要 证 明 这 一 点 , 需要 的 篇 幅 有 点 长 ， 
在 本 书 中 无 法 这 样 做 ， 因 此 你 只 能 选择 相信 这 种 说 法 是 正确 的 。 如 果 你 想 搞 明白 其 中 的 原因 ， 
可 参阅 欧 几 里 得 算法 ,可 汗 学 院 很 清楚 地 阑 述 了 这 种 算法 , 网址 为 https://www.khanacademy.org/ 


computing/computer-science/ryptography/modarithmetic/a/the-euclidean-algorithm。 


下 面 再 次 使 用 同样 的 算法 。 对 于 640 m x 400 m 的 土地 ， 可 从 中 划 出 的 最 } 24gw 
大 方块 为 400 m x 400 m。 
这 将 余下 一 块 更 小 的 土地 ， 其 尺寸 为 400 m x 240 m。 | 4$9™ 
DE 
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接 下 来 ， 从 这 块 土地 中 划 出 最 大 的 方块 ， 余 下 一 块 更 小 的 土地 。 


Yepm Sir 
》 16m 一 人 } 2on 
oo— 
1egw 


基线 帮 件 1! 


余下 的 这 块 土地 满足 基线 条 件 ， 因 为 160 是 80 的 整数 倍 。 将 这 块 土地 分 成 两 个 方块 后 ， 将 不 
会 余下 任何 土地 ! 


- D6 
-一 一 一 一 
3p" 30” ~ 


这 里 重申 一 下 D&C 的 工作 原理 : 

(1) 找 出 简单 的 基线 条 件 ; 

(2) 确定 如 何 缩小 问题 的 规模 ， 使 其 符合 基线 条 件 。 

D&C 并 非 可 用 于 解决 问题 的 算法 ， 而 是 一 种 解决 问题 的 思路 。 我 们 再 来 看 一 个 例子 。 


给 定 一 个 数字 数组 。 
21415 


你 需要 将 这 些 数字 相 加 ， 并 返回 结果 。 使 用 循环 很 容易 完成 这 种 任务 。 


def suml(arr): 
tatal., es 
for x in arr: 
total += x 
return total 


Brint SUmeoLLy: 23. Se 1]) 
但 如 何 使 用 递归 函数 来 完成 这 种 任务 呢 ? 


第 一 步 : 找 出 基线 条 件 。 最 简单 的 数组 什么 样 呢 ? 请 想 想 这 个 问题 ， 再 接着 往 下 读 。 如 果 数 
组 不 包含 任何 元 素 或 只 包含 一 个 元 素 ， 计 算 总 和 将 非常 容易 。 


[ ] 办 不 包含 任何 乞 系 = 总 和 为 O 


基线 夺 件 [如 和 玫 包 会 一 个 先 素 = 总 和 为 了 


因此 这 就 是 基线 条 件 。 
第 二 步 : 每 次 递归 调用 都 必须 离 空 数组 更 近 一 步 。 如 何 缩小 问题 的 规模 呢 ? 下 面 是 一 种 办 法 。 


som([214]e]) = 12 
这 与 下 面 的 版 本 等 效 。 


pa 填 sum(J41e]) 1D =12 


这 两 个 版 本 的 结果 都 为 12， 但 在 第 二 个 版 本 中 ， 给 函数 sum 传 递 的 数组 更 短 。 换 言 之 ， 这 缩 
小 了 问题 的 规模 ! 
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函数 sum 的 工作 原理 类 似 于 下 面 这 样 。 


看 则 ,计算 列 珍 中 除 第 一 个 数字 外 绝 
其 他 束 字 荡 总 和 ， 将 其 与 第 一 个 束 字 
相 加 ， 再 把 贺 个 办 


如 果 列 秦 为 室 ， 
就 返 国 0 


这 个 函数 的 运行 过 程 如 下 。 


最 伦 佬 办 
v 
两 者 等 放 一 SUm (E20) 让 ~ 
J 
an 加) 2+19 =12 
了 个 
咎 + som((Z1) 4+6= 1 
业 更 
时 全 称 件 | 
com( El) 15 6. 
别 忘 了 ， 递 归 记 录 了 状态 。 
别 筷 了 ， 递 并 
| 何在 了 这 泪 示 
过 到 基线 帮 件 前 ， 完成 的 呜 数 调 
nn 用 现状 坊 
| “ 
SS sun( L2121e1) 2 1 过 了 
0 起 沪 
D+ sun([21s]) 2*+1$ =12 


) 个 
4+son(E 4+6 -1% 
J 


基线 夺 件 1 | 


sowm( 回 ) 's 6. 
这 个 绝 束 调用 
最 先 完成 
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提 
编写 涉及 数组 的 递归 函数 时 , 基线 条 件 通常 是 数组 为 空 或 只 包含 一 个 元 素 。 陷 入 困境 时 ， 
请 检查 基线 条 件 是 不 是 这 样 的 。 


| 


函数 式 编程 一 营 


你 可 能 想 , 既然 使 用 循环 可 轻松 地 完成 任务 ,为 何 还 要 使 用 递归 方式 呢 ? 看 看 函数 式 编程 
你 就 明白 了 ! 诸 如 Haskell 等 函数 式 编程 语言 言 没有 循环 ， 因此 你 只 能 使 用 递归 来 编写 这 样 的 函数 。 
如 果 你 对 递归 有 深入 的 认识 ， 函 数 式 编程 语言 学 习 起 来 将 更 容易 。 例 如 , 使 用 Haskell 时 ， 你 可 
能 这 样 编写 函数 sum。 


X + (Sum xs) 人 -递归 条 件 


注意 ， 这 就 像 是 你 有 函数 的 两 个 定义 。 符 合 基 线条 件 时 运行 第 一 个 定义 ,符合 递 归 条 件 时 
运行 第 二 个 定义 。 也 可 以 使 用 Haskell 语 言 中 的 if 语 句 来 编写 这 个 函数 。 


i Ge et ne Se | 
then 0 
else (nea nme sumeernEen yy 


但 前 一 个 版 本 更 容易 理解 。Haskell 大 量 使 用 了 递归 , 因此 它 提供 了 各 种 方便 实现 递归 的 语 
法 。 如 果 你 喜欢 递归 或 想 学 习 一 门 新 语言 ， 可 以 研究 一 下 Haskell。 


练习 

4.1 请 编写 前 述 sum 函 数 的 代码 。 

4.2 ”编写 一 个 递归 函数 来 计算 列表 包含 的 元 素数 。 
4.3” 找 出 列表 中 最 大 的 数字 。 


4.4 还 记得 第 1 章 介绍 的 二 分 查找 吗 ? 它 也 是 一 种 分 而 治之 算法 。 你 能 
找 出 二 分 查找 算法 的 基线 条 件 和 递归 条 件 吗 ? 


4.2 快速 排序 


快速 排序 是 一 种 常用 的 排序 算法 ， 比 选择 排序 快 得 多 。 例 如 ，C 语 言 标准 库 中 的 函数 qsort 
实现 的 就 是 快速 排序 。 快 速 排序 也 使 用 了 D&C。 
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下 面 来 使 用 快速 排序 对 数组 进行 排序 。 对 排序 算法 来 说 , 最 简单 的 数 
组 什么 样 呢 ? 还 记得 前 一 节 的 “提示 ” 吗 ? 就 是 根本 不 需要 排序 的 数组 。 


[ | < 空 数 但 
修 这 样 的 


人 < 只 包 合 一 个 移 泰 约束 但 


因此 ， 基 线条 件 为 数组 为 空 或 只 包含 一 个 元 素 。 在 这 种 情况 下 
原样 返回 数组 一 一 根本 就 不 用 排序 。 
def quicksort (array): 


if len(array) < 2: 
return array 


E 
， 只 需 


我 们 来 看 看 更 长 的 数组 。 对 包含 两 个 元 素 的 数组 进行 排序 也 很 容易 。 


子 < 检查 第 一 个 先秦 归 大 此 
第 二 个 先 奏 个， 如 果 不 
雍 第 二 个 个， 就 文 挨 它 


们 的 位 置 
包含 三 个 元 素 的 数组 呢 ? 


别 忘 了 ,你 要 使 用 D&C， 因 此 需要 将 数组 分 解 ， 直到 满足 基线 条 件 。 下 面 介绍 快速 排序 的 工 
作 原 理 。 首 先 ， 从 数组 中 选择 一 个 元 素 ， 这 个 元 素 被 称 为 基准 值 (pivot )。 


稍 后 再 介绍 如 何 选择 合适 的 基准 值 。 我 们 暂时 将 数组 的 第 一 个 元 素 用 作 基 准 值 。 人 > 
接 下 来 ， 找 出 比 基 准 值 小 的 元 素 以 及 比 基 准 值 大 的 元 素 。 


基准 值 
大 所 33 的 匈 泰 
小 于 33 的 移 素 ( 宝 趣 但 ) 
vy 
138] 4YL ] 
个 


基准 值 
这 被 称 为 分 区 ( partitioning ) 。 现 在 你 有 : 


口 一 个 由 所 有 小 于 基准 值 的 数字 组 成 的 子 数组 ; 
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口 基准 值 ; 
口 一 个 由 所 有 大 于 基准 值 的 数组 组 成 的 子 数 组 。 
这 里 只 是 进行 了 分 区 ,得 到 的 两 个 子 数组 是 无 序 的 。 但 如 果 这 两 个 数组 是 有 序 的 ， 对 整个 数 


组 进行 排序 将 非常 容易 。 
人 3[ ] 


如 果子 数组 是 有 序 的 ， 就 可 以 像 下 面 这 样 合 并 得 到 一 个 有 序 的 数组 : 左边 的 数组 + 基准 值 + 
右边 的 数组 。 在 这 里 ， 就 是 [10, 15] + [33] + []， 结 果 为 有 序数 组 [10, 15, 33]。 


如 何 对 子 数组 进行 排序 呢 7 对 于 包含 两 个 元 素 的 数组 ( 左边 的 子 数组 ) 以 及 空 数组 ( 右边 的 
子 数组 ), 快速 排序 知道 如 何 将 它们 排序 ， 因此 只 要 对 这 两 个 子 数组 进行 快速 排序 , 再 合并 结果 ， 
就 能 得 到 一 个 有 序数 组 ! 


quicksort ([15, 10]) + [33] + quicksort([]) 


不 管 将 哪个 元 素 用 作 基 准 值 ， 这 都 管用 。 假 设 你 将 15 用 作 基 准 值 。 


U3] 4 EB3) 


这 个 子 数组 都 只 有 一 个 元 素 , 而 你 知道 如 何 对 这 些 数 组 进行 排序 。 现 在 你 就 知道 如 何 对 包含 
三 个 元 素 的 数组 进行 排序 了 ， 步 又 如 下 。 


(1) 选择 基准 值 。 

(2) 将 数组 分 成 两 个 子 数 组 : 小 于 基准 值 的 元 素 和 大 于 基准 值 的 元 素 。 
(3) 对 这 两 个 子 数组 进行 快速 排序 。 

包含 四 个 元 素 的 数组 呢 ? 


33 
假设 你 也 将 33 用 作 基 准 值 。 


[2[s1| >[] 


左边 的 子 数组 包含 三 个 元 素 , 而 你 知道 如 何 对 包含 三 个 元 素 的 数组 进行 排序 : 对 其 递归 地 调 
用 快速 排序 。 
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[gs >L] 
加 < 依 臣 


因此 你 能 够 对 包含 四 个 元 素 的 数组 进行 排序 。 如 果 能 够 对 包含 四 个 元 素 的 数组 进行 排序 , 就 
能 对 包含 五 个 元 素 的 数组 进行 排序 。 为 什么 呢 ? 假设 有 下 面 这 样 一 个 包含 五 个 元 素 的 数组 。 


3 


根据 选择 的 基准 值 ， 对 这 个 数组 进行 分 区 的 各 种 可 能 方式 如 下 。 
[LO 
问心 
G7 
© 
LL 


注意 ， 这 些 子 数组 包含 的 元 素数 都 在 0 一 4 内 ， 而 你 已 经 知道 如 何 使 用 快速 排序 对 包含 0 一 4 
个 元 素 的 数组 进行 排序 ! 因此 , 不 管 如 何 选择 基准 值 ， 你 都 可 对 划分 得 到 的 两 个 子 数 组 递归 地 进 
行 快速 排序 。 


例如 ， 假 设 你 将 3 用 作 基 准 值 ， 可 对 得 到 的 子 数组 进行 快速 排序 。 


qs CE < 人 > >t(E14)) 
y 
EE\<> 
J 
1\z13141s | 
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将 子 数组 排序 后 ， 将 它们 合并 ， 得 到 一 个 有 序数 组 。 即 便 你 将 5 用 作 基 准 值 ， 这 也 可 行 。 
qort (GEL 人 7 qt 了 
Vy 
OL] 
y 


将 任何 元 素 用 作 基 准 值 都 可 行 ， 因 此 你 能 够 对 包含 五 个 元 素 的 数组 进行 排序 。 同 理 ， 你 能 够 Cs 
对 包含 六 个 元 素 的 数组 进行 排序 ， 以 此 类 推 。 


归纳 证 明 


刚才 你 大 致 见识 了 归纳 证 明 ! 归纳 证 明 是 一 种 证 明 算 法 行 之 有 效 的 方式 ， 它 分 两 步 : 基线 
条 件 和 归纳 条 件 。 是 不 是 有 点 似曾相识 的 感觉 ? 例如 ， 假 设 我 要 证 明 我 能 让 到 梯子 的 最 上 面 。 
递归 条 件 是 这 样 的 : 如 果 我 站 在 一 个 横 档 上 ， 就 能 将 脚 放 到 下 一 个 横 档 上 。 换 言 之 ， 如 果 我 站 
在 第 二 个 横 档 上 ,就 能 疏 到 第 三 个 横 档 。 这 就 是 归纳 条 件 。 而 基线 条 件 是 这 样 的 ， 即 我 已 经 站 
在 第 一 个 横 档 上 。 因 此 ， 通 过 每 次 候 一 个 模 档 ， 我 就 能 企 到 梯子 最 顶端 。 

对 于 快速 排序 ， 可 使 用 类 似 的 推理 。 在 基线 条 件 中 ,我 证 明 这 种 算法 对 空 数组 或 包含 一 个 
元 素 的 数组 管用 。 在 归纳 条 件 中 , 我 证 明 如 果 快 速 排序 对 包含 一 个 元 素 的 数组 管用 , 对 包含 两 
个 元 素 的 数组 也 将 管用 ;如 果 它 对 包含 两 个 元 素 的 数组 管用 ,对 包含 三 个 元 素 的 数组 也 将 管用 ， 
以 此 类 推 。 因此 , 我 可 以 说 , 快速 排序 对 任何 长 度 的 数组 都 管用 。 这 里 不 再 深入 讨论 归纳 证 明 ， 
但 它 很 有 趣 ， 并 与 D&C 协 同 发 挥 作用 。 
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下 面 是 快速 排序 的 代码 。 


def quicksort (array): 
if len(array) < 2: 


return array < 基线 条 件 : 为 空 或 只 包含 一 个 元 素 的 数组 是 “有 序 ” 的 
else: 
pivot Et array[0] i 递归 条 件 由 所 有 小 于 基准 值 的 
less = [i for i in array[1:] if i <= pivVvot] 媳 元 素 组 成 的 子 数组 
greater = [i for i in array[1:] if i > pivot] 所 交 pp 由 所 有 大 于 基准 值 的 
元 素 组 成 的 子 数组 


return quicksort(less) + [pivot] + quicksort (greater) 


prinb olekeoit (LS 2 3)) 


4.3 再 谈 大 O 表示 法 


快速 排序 的 独特 之 处 在 于 ,其 速度 取决 于 选择 的 基准 值 。 在 讨论 快速 排序 的 运行 时 间 前 , 我 
们 再 来 看 看 最 常见 的 大 O 运 行 时 间 。 


算法 二 分 查访 简单 查 碟 快 连 排 序 选择 排 廊 。 和 落 行 效 问 题 算法 
地 但 长 度 。。 昌 (Log OW Owktam Ow) Oo ee 
1% 多 3 才 1 3.3 力 1 42x 人 
9 慢 速 计算 机 
19¢ .6 埃 份 录 bb 16.6 5 2.9x18 吕 
1988 1 yh 96 24744 4.2 


上 述 图 表 中 的 时 间 是 基于 每 秒 执行 10 次 操作 计算 得 到 的 。 这 些 数据 并 不 准确 , 这 里 提供 它们 
想 让 你 对 这 些 运 行 时 间 的 差别 有 大 致 认识 。 实 际 上 ， 计 算 机 每 秒 执行 的 操作 远 不 止 10 次 。 


只 是 XAE/G 

对 于 每 种 运行 时 间 ， 本 书 还 列 出 了 相关 的 算法 。 来 看 看 第 2 章 介绍 的 选择 排序 ， 其 运行 时 间 
为 O(n”)， 速 度 非常 慢 。 

还 有 一 种 名 为 合并 排序 (merge sort ) 的 排序 算法 ， 其 运行 时 间 为 O(n log n)， 比 选择 排序 快 
得 多 ! 快速 排序 的 情况 比较 棘手 ， 在 最 糟 情况 下 ， 其 运行 时 间 为 O0Z。 

与 选择 排序 一 样 慢 ! 但 这 是 最 糟 情况 。 在 平均 情况 下 ,快速 排序 的 运行 时 间 为 O(n 1log n)。 你 
可 能 会 有 如 下 疑问 。 

口 这 里 说 的 最 糟 情况 和 平均 情况 是 什么 意思 呢 ? 
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口 者 快速 排序 在 平均 情况 下 的 运行 时 间 为 OOzlog n), 而 合并 排序 的 运行 时 间 总 是 O(n log nn)， 
为 何不 使 用 合并 排序 ? 它 不 是 更 快 吗 ? 


4.3.1 比较 合并 排序 和 快速 排序 
假设 有 下 面 这 样 打印 列表 中 每 个 元 素 的 简单 函数 。 


def print_ items (list): 
for item in list: 
print item 


这 个 函数 遍历 列表 中 的 每 个 元 素 并 将 其 打印 出 来 。 它 迭代 整个 列表 一 次 ， 因 此 运行 时 间 为 
O(n)。 现 在 假设 你 对 这 个 函数 进行 修改 ,使 其 在 打印 每 个 元 素 前 都 休眠 1 秒 钟 。 
from time import sleep 
def print_ items2 (list): 
for item in list: 


sleep(1) 
print item 


它 在 打印 每 个 元 素 前 都 暂停 1 秒 钟 。 假 设 你 使 用 这 两 个 函数 来 打印 一 个 包含 5 个 元 素 的 列表 。 


2[41s13 lw 


二 
Print.items : 2 468 1 办 


Prit_items 了 : < 体 聊 > 。 2 < 体 下 > 和 < 洒 区 > 6 < 件 下 > ”名 < 休 收 > ”1% 


这 两 个 函数 都 迭代 整个 列表 一 次 ， 因 此 它们 的 运行 时 间 都 为 O(n)。 你 
认为 哪个 函数 的 速度 更 快 呢 ? 我 认为 brint_items 要 快 得 多 ， 因 为 它 没有 Cxh 
在 每 次 打印 元 素 前 都 暂停 1 秒 钟 。 因 此 ， 虽 然 使 用 大 O 表 示 法 表示 时 ， 这 两 。 周 定 的 -人 

个 函数 的 速度 相同 , 但 实际 上 print_items 的 速度 更 快 ,在 大 O 表 示 法 O(n) “对 间 量 

中 ,nn 实际 上 指 的 是 这 样 的 。 


c 是 算法 所 需 的 固定 时 间 量 , 被 称 为 常量 。 例 如 ，print_ items 所 需 的 时 间 可 能 是 10 毫 秒 * 
D， 而 print_items2 所 需 的 时 间 为 1 秒 * n。 

通常 不 考虑 这 个 常量 ， 因 为 如 果 两 种 算法 的 大 0 运行 时 间 不 同 ， 这 种 常量 将 无 关 紧要 。 就 拿 
二 分 查找 和 简单 查找 来 举例 说 明 。 假 设 这 两 种 算法 的 运行 时 间 包 含 如 下 常量 。 


1W#s nN 1# xLoqn 
简单 查找 工分 查找 


你 可 能 认为 ， 简 单 查找 的 常量 为 10 毫 秒 ， 而 二 分 查找 的 常量 为 1 秒 ， 因 此 简单 查找 的 速度 要 
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快 得 多 。 现 在 假设 你 要 在 包含 40 亿 个 元 素 的 列表 中 查找 ， 所 需 时 间 将 如 下 。 


简单 查 太 ”| 14 坟 符 六 关 40 亿 = 443 天 


二 分 查 基 413 x 3 了 2 = 32 办 


正如 你 看 到 的 ， 二 分 查找 的 速度 还 是 快 得 多 ， 和 常量 根本 没有 什么 影响 。 


但 有 时 候 , 常量 的 影响 可 能 很 大 , 对 快速 查找 和 合并 查找 来 说 就 是 如 此 。 快速 查 找 的 常量 比 
合并 查找 小 ， 因 此 如 果 它 们 的 运行 时 间 都 为 O(n log n), 快速 查找 的 速度 将 更 快 。 实际 上 ,快速 查 
找 的 速度 确实 更 快 ， 因 为 相对 于 遇 上 最 糟 情况 ， 它 过 上 平均 情况 的 可 能 性 要 大 得 多 。 


此 时 你 可 能 会 问 ， 何 为 平均 情况 ， 何 为 最 糟 情况 呢 ? 


4.3.2 平均 情况 和 最 糟 情况 


快速 排序 的 性 能 高 度 依赖 于 你 选择 的 基准 值 。 假设 你 总 是 将 第 一 个 元 素 用 作 基 准 值 , 且 要 处 
理 的 数组 是 有 序 的 。 由 于 快速 排序 算法 不 检查 输入 数组 是 否 有 序 , 因此 它 依然 尝试 对 其 进行 排序 。 


[DOESETI 
gy [ 站 日 站 日 日 串口 
[ A CEE 和 
[ J 人 ELSE 
Dj 人 
[ IE 
门 令 国 


注意 ,数组 并 没有 被 分 成 两 半 ， 相反， 其 中 一 个 子 数组 始终 为 空 ， 这 导致 调用 栈 非常 长 。 现 
在 假设 你 总 是 将 中 间 的 元 素 用 作 基 准 值 ， 在 这 种 情况 下 ， 调 用 栈 如 下 。 
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2[3[L4TsJel7]8| 
个 和 内 和 上 
V vy 4 
BB] > al 
[ ] 人 多国 
调用 栈 短 得 多 ! 因为 你 每 次 都 将 数组 分 成 两 半 , 所 以 不 需要 那么 多 递归 调用 。 你 很 快 就 到 达 
了 基线 条 件 ， 因 此 调用 栈 短 得 多 。 4 
第 一 个 示例 展示 的 是 最 糟 情况 ， 而 第 二 个 示例 展示 的 是 最 佳 情况 。 在 最 糟 情况 下 ， 栈 长 为 


O(n)， 而 在 最 佳 情况 下 ， 栈 长 为 O(log n)。 


现在 来 看 看 栈 的 第 一 层 。 你 将 一 个 元 素 用 作 基 准 值 ， 并 将 其 他 的 元 素 划分 到 两 个 子 数组 中 。 
这 涉及 数组 中 的 全 部 8 个 元 素 , 因此 该 操作 的 时 间 为 O(n)。 在 调用 栈 的 第 一 层 , 涉及 全 部 8 个 元 素 ， 
但 实际 上 ， 在 调用 栈 的 每 层 都 涉及 OU 个 元 素 。 


"| LOEETTSTETI 
jonaana 
[SEE 
[J > ELE 
rj [Ea 
[1 EI] 


vy 
[JLY 
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即便 以 不 同 的 方式 划分 数组 ， 每 次 也 将 涉及 O(n) 个 元 素 。 


2T3L41s[s|7|8 
vy 
< 


6B 个 移 泰 ， 钙 
QC 个 移 泰 
6B 个 先 奈 ， 钟 
CI) 个 抑 厌 


sw 回合 加 


因此 ， 完 成 每 层 所 需 的 时 间 都 为 CCD。 


站 三 电码 电站 本 总 
对 间 ZBOQM -~ i Cr 
ee 本 OE [Gao 
WA) 


rm 回合 国 


这 质 钨 旗 行 时 
间 也 用 Qn) 


在 这 个 示例 中 ， 层 数 为 O(log n)( 用 技术 术语 说 ， 


时 间 为 0(n)。 因 此 整个 算法 需要 的 时 间 为 O(n) * O(log n) = O(n log n)。 


SE 
口令 加 


O(log 1) 


回 人 ED 


调用 栈 的 高 度 为 Cdog n) )， 而 每 层 需要 的 


这 就 是 最 佳 情况 。 


在 最 糟 情况 下 ， 有 O(n) 屋 ， 因 此 该 算法 的 运行 时 间 为 O(n) * O(n) = O(n”)。 


知道 吗 ? 这 里 要 告诉 你 的 是 , 最 佳 情 况 也 是 平均 情况 。 只 
快速 排序 的 平均 运行 时 间 就 将 为 O(n log n)。 快速 排序 是 


素 作为 基准 值 ， 
是 D&C 典范 。 


练习 

使 用 大 0 表示 法 时 ， 下 面 各 种 操作 都 需要 多 长 时 间 ? 
4.5 打印 数组 中 每 个 元 素 的 值 。 

4.6 将 数组 中 每 个 元 素 的 值 都 乘 以 2。 

4.7 只 将 数组 中 第 一 个 元 素 的 值 乘 以 2。 


要 你 每 次 都 随机 地 选择 一 个 数组 元 
最 快 的 排序 算法 之 一 , 也 
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4.8 ”根据 数组 包含 的 元 素 创建 一 个 乘法 表 ， 即 如 果 数 组 为 [2, 3, 7, 8, 10]， 首 先 将 每 个 元 素 
都 乘 以 2 ， 再 将 每 个 元 素 都 乘 以 3 ， 然 后 将 每 个 元 素 都 乘 以 7， 以 此 类 推 。 


4.4 小 结 


口 D&C 将 问题 逐步 分 解 。 使 用 D&C 处 理 列表 时 ， 基 线条 件 很 可 能 是 空 数组 或 只 包含 一 个 元 
素 的 数组 。 

口 实现 快速 排序 时 , 请 随机 地 选择 用 作 基 准 值 的 元 素 。 快速 排序 的 平均 运行 时 间 为 O(n logn)。 
口 大 O 表 示 法 中 的 常量 有 时 候 事 关 重大 ， 这 就 是 快速 排序 比 合 并 排序 快 的 原因 所 在 。 

口 比较 简单 查找 和 二 分 查找 时 , 常量 几乎 无 关 紧要 , 因为 列表 很 长 时 , O(log n) 的 速度 比 O(n) 
快 得 多 。 


~~ oY 
‘lhl nin 
出 


v 


散 列 表 


口 学 习 散 列表 一 一 最 有 用 的 基本 数据 结构 之 一 。 散 列表 用 途 广 泛 , 本章 将 介绍 其 常见 的 用 途 。 
口 学 习 散 列表 的 内 部 机 制 : 实现 、 冲 突 和 散 列 函数 。 这 将 帮助 你 理解 如 何 分 析 散 列表 的 性 能 。 


假设 你 在 一 家 杂货 店 上 班 。 有 顾客 来 买 东 西 时 ， 你 得 在 一 个 本 子 中 查 
找 价格 。 如 果 本 子 的 内 容 不 是 按 字 母 顺序 排列 的 ， 你 可 能 为 查找 革 果 
( apple ) 的 价格 而 浏览 每 一 行 ， 这 需要 很 长 的 时 间 。 此 时 你 使 用 的 是 第 1 章 
介绍 的 简单 查找 ， 需 要 浏览 每 一 行 。 还 记得 这 需要 多 长 时 间 吗 ?O(n)。 如 
果 本 子 的 内 容 是 按 字母 顺序 排列 的 ， 可 使 用 二 分 查找 来 找 出 苹果 的 价格 ， 
这 需要 的 时 间 更 短 ， 为 Odog n)。 


PEAR.. 79 4 
EGGS...2.49$ 
MILK.... 1.94$ 
消 序 列表 无 启 列 表 
O(logn) OW 
Ex | 
x ~ 
惟 RS 
下 Ke 


对 间 对 间 


第 5 章 散 列 表 59 


需要 提醒 你 的 是 ， 运 行 时 间 O(n) 和 O(log n) 之 间 有 天 壤 之 别 ! 假设 你 每 秒 能 够 看 10 行 ， 使 用 
简单 查找 和 二 分 查找 所 需 的 时 间 将 如 下 。 


i OW | Ooan) 


你 需要 检查 
pg i105 1# < J0g,100 -7 村 
1899 466 分 1 入 你 需要 检查 
ee log,1000= 10 行 
100090 16.6 分 2 办 你 需要 检查 


lo0g,10000= 14 行 


你 知道 ,二 分 查找 的 速度 非常 快 。 但 作为 收银 员 , 在 本 子 中 查找 价格 是 件 很 痛苦 的 事情 ， 哪 
怕 本 子 的 内 容 是 有 序 的。 在 查找 价格 时 ,你 都 能 感觉 到 顾客 的 怒气 。 看 来 真 的 需要 一 名 能 够 记 住 
所 有 商品 价格 的 雇员 ， 这 样 你 就 不 用 查找 了 : 问 她 就 能 马上 知道 答案 。 


只 


不 管 商 品 有 多 少 , 这 位 雇员 ( 假设 她 的 名 字 为 Maggie ) 报 出 任何 商品 的 价格 的 时 间 都 为 0(1)， 


渍 摆 查 找 二 分 查 总 MAGGIE 
牵 季 征购 OW O(logn) OC) 


商品 歼 量 
人 > 
iwn | 1105 | i 
| 
19008% yA 2 四 立即 


是 太 厉害 了 ! 如 何 聘 到 这 样 的 雇员 呢 ? 


一 
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下 面 从 数据 结构 的 角度 来 看 看 。 前 面 介绍 了 两 种 数据 结构 : 数组 和 链表 ( 其 实 还 有 栈 , 但 栈 
并 不 能 用 于 查找 )。 你 可 使 用 数组 来 实现 记录 商品 价格 的 本 子 。 


(Eccs， 2.44) (mick,1.44) 


这 种 数组 的 每 个 元 素 包 含 两 项 内 容 : 商品 名 和 价格 。 如 果 将 这 个 数组 按 商 品名 排序 ， 就 可 使 
用 二 分 查找 在 其 中 查找 商品 的 价格 。 这 样 查找 价格 的 时 间 将 为 O(log n)。 然 而 ， 你 希望 查找 商品 
价格 的 时 间 为 0(1)， 即 你 希望 查找 速度 像 Maggie 那 么 快 ， 这 是 散 列 函数 的 用 武之 地 。 


5.1 散 列 函数 
散 列 函数 是 这 样 的 函数 ， 即 无 论 你 给 它 什 么 数据 ， 它 都 还 你 一 个 数字 。 
“NAMASTE” > 
计 hearA( 4 
“eos 2 


号 数列 吗 才 


如 果 用 专业 术语 来 表达 的 话 ， 我 们 会 说 ， 散 列 函 数 “ 将 输入 映射 到 数字 ”。 你 可 能 认为 散 列 
函数 输出 的 数字 没什么 规律 ， 但 其 实 散 列 函数 必须 满足 一 些 要 求 。 
口 它 必 须 是 一 致 的 。 例 如 ,假设 你 输入 apple 时 得 到 的 是 4, 那么 每 次 输入 apple 时 ， 得 到 的 都 
必须 为 4。 如 果 不 是 这 样 ， 散 列表 将 毫 无 用 处 。 
口 它 应 将 不 同 的 输入 映射 到 不 同 的 数字 。 例如 , 如 果 一 个 散 列 函数 不 管 输入 是 什么 都 返回 1， 
它 就 不 是 好 的 散 列 函 数 。 最 理想 的 情况 是 ， 将 不 同 的 输入 映射 到 不 同 的 数字 。 
散 列 函数 将 输入 映射 为 数字 ， 这 有 何 用 途 呢 ? 你 可 使 用 它 来 打造 你 的 “Maggie”! 
为 此 ， 首 先 创建 一 个 空 数 组 。 


凡生 演 部 要 


你 将 在 这 个 数组 中 存储 商品 的 价格 。 下 面 来 将 苹果 的 价格 加 入 到 这 个 数组 中 。 为 此 , 将 apple 
作为 输入 交 给 散 列 函数 。 
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“个 PPLE "人 2 


散 列 函数 的 输出 为 3， 因 此 我 们 将 苹果 的 价格 存储 到 数组 的 索引 3 处 。 


AAAC 


Y 


yj 1 2 34 
下 面 将 牛奶 (milk ) 的 价格 存储 到 数组 中 。 为 此 ， 将 mik 作 为 散 列 函数 的 输入 。 


‘MLK > Ch 他 


散 列 函数 的 输出 为 0， 因 此 我 们 将 牛奶 的 价格 存储 在 索引 0 处 。 


不 断 地 重复 这 个 过 程 ， 最 终 整 个 数组 将 填 满 价格 。 


144| 074 |2.49 0.4|14| 


现在 假设 需要 知道 鳄 梨 (avocado ) 的 价格 。 你 无 需 在 数组 中 查找 ， 只 需 将 avocado 作 为 输入 


交 给 散 列 函数 。 
‘NocADO ~> C4> 4 


它 将 告诉 你 铝 梨 的 价格 存储 在 索引 4 人 处。 果然 ， 你 在 那里 找到 了 。 
AVvocAPpo =141 


Vy 


Es 


/ f 1 
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散 列 函数 准确 地 指出 了 价格 的 存储 位 置 , 你 根本 不 用 查找 ! 之 所 以 能 够 这 样 , 具体 原因 如 下 。 


口 散 列 函数 总 是 将 同样 的 输入 映射 到 相同 的 索引 。 每 次 你 输入 avocado， 得 到 的 都 是 同一 个 
数字 。 因 此 ， 你 可 首先 使 用 它 来 确定 将 鳄 巢 的 价格 存储 在 什么 地 方 ， 并 在 以 后 使 用 它 来 
确定 鳄 梨 的 价格 存储 在 什么 地 方 。 

口 散 列 函数 将 不 同 的 输入 映射 到 不 同 的 索引 。avocado 映 射 到 索引 4，milk 映 射 到 索引 0。 

种 商品 都 映射 到 数组 的 不 同位 置 ， 让 你 能 够 将 其 价格 存储 到 这 里 。 

口 散 列 函数 知道 数组 有 多 大 ， 只 返回 有 效 的 索引 。 如 果 数 组 包含 5 个 元 素 ， 散 列 男 数 就 不 会 
返回 无 效 索 引 100。 


刚才 你 就 打造 了 一 个 “Maggie”! 你 结合 使 用 散 列 函数 和 数组 创建 了 一 种 被 称 为 获 列表 (hash 
table ) 的 数据 结构 。 散 列表 是 你 学 习 的 第 一 种 包含 额外 逻辑 的 数据 结构 。 数 组 和 链表 都 被 直接 映 
射 到 内 存 ， 但 散 列表 更 复杂 ， 它 使 用 散 列 函数 来 确定 元 素 的 存储 位 置 。 

在 你 将 学 习 的 复杂 数据 结构 中 ， 散 列表 可 能 是 最 有 用 的 ， 也 被 称 为 散 列 映射 、 映 射 、 字 典 和 
关联 数组 。 散 列表 的 速度 很 快 ! 还 记得 第 2 章 关于 数组 和 链表 的 讨论 吗 ?” 你 可 以 立即 获取 数组 中 
的 元 素 ， 而 散 列 表 也 使 用 数组 来 存储 数据 ， 因 此 其 获取 元 素 的 速度 与 数组 一 样 快 。 

你 可 能 根本 不 需要 自己 去 实现 散 列 表 ， 任 一 优秀 的 语言 都 提供 了 散 列 表 实现 。Python 提 供 的 
散 列表 实现 为 字典 ， 你 可 使 用 函数 aict 来 创建 散 列表 。 


>>> book = dict() 二 二 一 
le 
WE 
一 售 室 的 
数列 天 
创建 散 列表 book 后 ， 在 其 中 添加 一 些 商品 的 价格 。 
>>> pook["apple"] = 0.67 <………… 一 个 苹果 的 价格 为 67 美 分 
>>> book["milk"] = 1.49 < …… 牛奶 的 价格 为 1.49 美 元 
>>> book["avocado"] = 1.49 


>>> print book 
{'avocado': 1.49, 'apple': 0.67, 'milk': 1.49} 


非常 简单 ! 我 们 来 查询 鳄 梨 的 价格 。 


>>> print book["avocado"] 


1.49 <……… 鳄 梨 的 价格 


散 列表 由 键 和 值 组 成 。 在 前 面 的 散 列表 pbook 中 ， 键 为 商品 名 ， 值 为 商品 价格 。 散 列表 将 刍 
映射 到 值 。 


在 下 一 节 中 ， 你 将 看 到 一 些 散 列表 使 用 示例 。 
练习 
对 于 同样 的 输入 ， 散 列表 必须 返回 同样 的 输出 ， 这 一 点 很 重要 。 如 果 不 是 这 样 的 ， 就 无 法 找 


5.2 ”应 用 全 例 03 


到 你 在 散 列 表 中 添加 的 元 素 ! 
请 问 下 面 哪些 散 列 函数 是 一 致 的 ? 


5.1 f(x) = 1 < 无 论 输 入 是 什么 ， 都 返回 1 
5.2 f(x) = rand() < 每 次 都 返回 一 个 随机 数 
5.3 f(x) = next empty slot (ty) wv 返回 散 列 表 中 下 一 个 


空位 置 的 索引 
5.4 f(x) = len(x) < 将 字符 串 的 长 度 用 作 索 引 


5.2 应 用 案例 


散 列表 用 途 广泛 ， 本 节 将 介绍 儿 个 应 用 案例 。 


5.2.1 ”将 散 列表 用 于 查找 
手机 都 内 置 了 方便 的 电话 短 ， 其 中 每 个 姓名 都 有 对 应 的 电话 号 码 。 


PADE MAMA > 5AA 660 4.52% 
ALEX NANNING —> 4 234 4¢629% 
TANE MARIN 一 4IS5 567 3574 
假设 你 要 创建 一 个 类 似 这 样 的 电话 秒 , 将 姓名 映射 到 电话 号 码 。 该 
电话 短 需 要 提供 如 下 功能 。 
口 添加 联系 人 及 其 电话 号 码 。 
口 通过 输入 联系 人 来 获悉 其 电话 号 码 。 
这 非常 适合 使 用 散 列 表 来 实现 ! 在 下 述 情况 下 ,使 用 散 列 表 是 很 不 错 的 选择 。 
口 创建 映射 。 
口 查找 。 
创建 电话 禾 非 常 容易 。 首 先 ， 新 建 一 个 散 列 表 。 
>>> phone_book = dict() 


顺便 说 一 句 ，Python 提 供 了 一 种 创建 散 列 表 的 快捷 方式 一 一 使 用 一 对 大 括号 。 


>>> phone_book = {} ee 与 phone_book 总 dict () 等 效 
下 面 在 这 个 电话 短 中 添加 一 些 联系 人 的 电话 号 码 。 
>>> phone_ book["jenny"] = 8675309 


>>> phone_book["emergency"] = 911 
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这 就 成 了 ! 现在 ， 假 设 你 要 查找 Jenny 的 电话 号 码 ， 为 此 只 需 向 散 列 表 传人 相应 的 键 。 


>>> print phone_book["Jjenny"] 
8675309 < Jenny 的 电话 号 码 


(SN 


(一 >” “一 一 人 
le 


EMER 
EE 


使用 数列 珍 创 建 
的 史话 往 
如 果 要 求 你 使 用 数组 来 创建 电话 短 ， 你 将 如 何 做 呢 ? 散 列 表 让 你 能 够 轻松 地 模拟 映射 关系 。 


散 列 表 被 用 于 大 海 捞 针 式 的 查找 。 例 如 ,你 在 访问 像 http://adit.io 这 样 的 网 站 时 ,计算 机 必须 
将 adit.io 转 换 为 IP 地 址 。 


ADIT. ID —> \73.255.243.55 
无 论 你 访问 哪个 网 站 ， 其 网 址 都 必须 转换 为 IP 地 址 。 


GOOGLE.coM —> 74,125.234.\33 
FACEBOoK.CoOM- 173.252.\2%.6 
ScgIBD .CoM —> 23.235.47.I75 


这 不 是 将 网 址 映射 到 耳 地 址 吗 ? 好 像 非常 适合 使 用 散 列 表 哆 ! 这 个 过 程 被 称 为 DNS 解 析 
( DNS resolution ) ， 散 列表 是 提供 这 种 功能 的 方式 之 一 。 


5.2.2 ”防止 重复 


假设 你 负责 管理 一 个 投票 站 。 显 然 , 每 人 只 能 投 一 票 , 但 如 何 避 免 重复 投 
票 呢 ? 有 人 来 投票 时 ， 你 询问 他 的 全 名 ， 并 将 其 与 已 投票 者 名 单 进行 比 对 。 


如 果 名 字 在 名 单 中 ， 就 说 明 这 个 人 投 过 票 了， 因此 将 他 拒 之 门 外 ! 否则， 就 将 他 的 姓名 加 入 
到 名 单 中 ， 并 让 他 投票 。 现 在 假设 有 很 多 人 来 投 过 了 票 ， 因 此 名 单 非常 长 。 
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每 次 有 人 来 投票 时 ,你 都 得 浏览 这 个 长 长 的 名 单 ， 以 确定 他 是 否 投 过 票 。 但 有 一 种 更 好 的 办 
法 ， 那 就 是 使 用 散 列表 ! 


为 此 ， 首 先 创建 一 个 散 列 表 ， 用 于 记录 已 投票 的 人 。 


>>> voted = {} 


有 人 来 投票 时 ， 检 查 他 是 否 在 散 列表 中 。 2 


>>> value = voted.get ("tom") 


如 果 “tom” 在 散 列表 中 ， 函 数 get 将 返回 它 ; 否则 返回 None。 你 可 使 用 这 个 函数 检查 来 投 


票 的 人 是 否 投 过 票 ! 


检查 他 是 耕 
在 数列 珍 中 


将 站 姓名 加 六 
到 数列 硼 中 
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代码 如 下 。 


voted = {} 


def check voter (name): 
if voted.get (name): 
print "kick them out!" 


else: 
voted [name] = True 
print "let them vote!" 
我 们 来 测试 几 次 。 


>>> check_voter ("tom") 
let them vote! 
>>> check_voter ("mike") 
let them vote! 
>>> check_voter ("mike") 
kick them out! 


首先 来 投票 的 是 Tom， 上 述 代码 打印 let them vote!。 接 着 Mike 来 投票 ， 打 印 的 也 是 let 
them vote!。 然 后 ，Mike 又 来 投票 ， 于 是 打印 的 就 是 kick them out!。 


别 忘 了 ， 如果 你 将 已 投票 者 的 姓名 存储 在 列表 中 ,这 个 函数 的 速度 终 将 变 得 非常 慢 ， 因 为 它 
必须 使 用 简单 查找 搜索 整个 列表 。 但 这 里 将 它们 存储 在 了 散 列 表 中 ,而 散 列表 让 你 能 够 迅速 知道 
来 投票 的 人 是 否 投 过 票 。 使 用 散 列表 来 检查 是 否 重 复 ， 速 度 非常 快 。 


5.2.3 “将 散 列表 用 作 缓 存 


来 看 最 后 一 个 应 用 案例 : 缓存 。 如 果 你 在 网 站 工作 ,可 能 听 说 过 进 
行 缓存 是 一 种 不 错 的 做 法 。 下 面 简要 地 介绍 其 中 的 原理 。 假设 你 访问 网 


站 facebook.com。 
(1) 你 向 Facebook 的 服务 器 发 出 请 求 。 
(2) 服务 器 做 些 处 理 ， 生 成 一 个 网 页 并 将 其 发 送 给 你 。 


(3) 你 获得 一 个 网 页 。 


你 服务 器 网 页 ! 
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例如 ，Facebook 的 服务 器 可 能 搜集 你 朋友 的 最 近 活 动 ,以 便 向 你 显示 这 些 信 息 ， 这 需要 几 秒 
钟 的 时 间 。 作 为 用 户 的 你 ， 可 能 感觉 这 几 秒 钟 很 入, 进而 可 能 认为 Facebook 怎 么 这 么 慢 ! 另 一 方 
面 ，Facebook 的 服务 器 必须 为 数 以 百 万 的 用 户 提供 服务 ， 每 个 人 的 几 秒 钟 累积 起 来 就 相当 多 了 。 
为 服务 好 所 有 用 户 ，Facebook 的 服务 器 实际 上 在 很 努力 地 工作 。 有 没有 办 法 让 Facebook 的 服务 器 
少 做 些 工 作 ， 从 而 提高 Facebook 网 站 的 访问 速度 呢 ? 

假设 你 有 个 侄女 ， 总 是 没完 没 了 地 问 你 有 关 星 球 的 问题 。 火 星 离 地 球 多 远 ? 月 球 呢 ? 木星 
呢 ? 每 次 你 都 得 在 Google 搜 索 ,， 再 告诉 她 答案 。 这 需要 几 分 钟 。 现 在 假设 她 老 问 你 月 球 离 地 球 多 
远 ， 很 快 你 就 记 住 了 月 球 离 地 球 238 900 英 里 。 因 此 不 必 再 去 Google 搜 索 ， 你 就 可 以 直接 告诉 她 
答案 。 这 就 是 缓存 的 工作 原理 : 网 站 将 数据 记 住 ， 而 不 再 重新 计算 。 

如 果 你 登录 了 Facebook， 你 看 到 的 所 有 内 容 都 是 为 你 定制 的 。 你 每 次 访问 facebook.com， 其 
服务 器 都 需 考 虑 你 感 兴趣 的 是 什么 内 容 。 但 如 果 你 没有 登录 , 看 到 的 将 是 登录 页 面 。 每 个 人 看 到 
的 登录 页 面 都 相同 。Facebook 被 反复 要 求 做 同样 的 事情 :“ 当 我 注销 时 ， 请 向 我 显示 主页 。” 有 鉴 
于 此 ， 它 不 让 服务 器 去 生成 主页 ， 而 是 将 主页 存储 起 来 ， 并 在 需要 时 将 其 直接 发 送 给 用 户 。 


sy 
所 登 邓 一》 
人 入 


的 保 奉 的 网 责 | 
\ J 
己 登 好 服务 器 2 - 
GE ,) 


生成 的 网 素 1 


这 就 是 缓存 ， 具 有 如 下 两 个 优点 。 

口 用 户 能 够 更 快 地 看 到 网 页 ， 就 像 你 记 住 了 月 球 与 地 球 之 间 的 距离 时 一 样 。 下 次 你 侄女 再 
问 你 时 ， 你 就 不 用 再 使 用 Google 搜 索 ， 立 刻 就 可 以 告诉 她 答案 。 

口 Facebook 需 要 做 的 工作 更 少 。 

缓存 是 一 种 常用 的 加 速 方 式 ， 所 有 大 型 网 站 都 使 用 缓存 ， 而 缓存 的 数据 则 存储 在 散 列 表 中 1 


Facebook 不 仅 缓存 主页 ， 还 缓存 About 页 面 、Contact 页 面 、Terms and Conditions 页 面 等 众多 
其 他 的 页 面 。 因 此 ， 它 需要 将 页 面 URL 映 射 到 页 面 数据 。 
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face book. Com /obout 一 > About 员 面 的 炊 据 


faceboek.cem 一 > 主页 的 歼 括 


当 你 访问 Facebook 的 页 面 时 ， 它 首先 检查 散 列 表 中 是 否 存储 了 该 页 面 。 


请 求 了 acepook 
的 一 个 HK 


该 LRC 是 示 在 
数列 玫 中 ? 


办 


y 古 ， 
区 遂 熏 府中 的 蜂 据 让 服 和 多 器 做 党 处 理 


具体 的 代码 如 下 。 


cache = {} 


def gyet_ page (url): 
if cache.get (url): 


return cache[url] < 返回 缓存 的 数据 
else: 


data = get_data_from server (url) 
cache[url] = data <<……… 先 将 数据 保存 到 缓存 中 
return data 
仅 当 URL 不 在 缓存 中 时 , 你 才 让 服务 器 做 些 处 理 , 并 将 处 理 生成 的 数据 存储 到 缓存 中 ,再 返 
回 它 。 这 样 ， 当 下 次 有 人 请 求 该 URL 时 ,你 就 可 以 直接 发 送 缓存 中 的 数据 ， 而 不 用 再 让 服务 器 进 
行 处 理 了 。 


5.2.4 小结 
这 里 总 结 一 下 ， 散 列表 适合 用 于 : 
口 模拟 映射 关系 ; 
口 防止 重复 ; 


D 缓存 / 记 住 数 据 ， 以 免 服 务 器 再 通过 处 理 来 生成 它们 。 


5.3 ”冲突 


前 面 说 过 , 大 多 数 语言 都 提供 了 散 列 表 实 现 ， 你 不 用 知道 如 何 实现 它们 。 有 鉴于 此 ,我 就 不 
再 过 多 地 讨论 散 列 表 的 内 部 原理 , 但 你 依然 需要 考虑 性 能 ! 要 明白 散 列表 的 性 能 ,你 得 先 搞 清 楚 
什么 是 冲突 。 本 节 和 下 一 节 将 分 别 介绍 冲突 和 性 能 。 

首先 ,我 撒 了 一 个 善意 的 谎 。 我 之 前 告诉 你 的 是 ， 散 列 函 数 总 是 将 不 同 的 键 映射 到 数组 的 不 
同位 置 。 


‘mlLk’? 


‘APPLE? > [op | 
SG 数列 王 基 5 


实际 上 , 几乎 不 可 能 编写 出 这 样 的 散 列 函 数 。 我 们 来 看 一 个 简单 的 示例 。 假设 你 有 一 个 数组 ， 
它 包含 26 个 位 置 。 


S02 23 4 1 16 17 2 1 ZO ZT ZI 27 2 5 


而 你 使 用 的 散 列 函数 非常 简单 ， 它 按 字母 表 顺 序 分 配 数 组 的 位 置 。 


BHT 
到 这 里 到 冯 时 头 的 放 
| 必 C 打 头 的 .40 打头 的 “到 这 里 
由 六 到 这 里 放 到 玉里 入 


人 天 0 1 :I2 33 44 5 6 £7 19 9 20 .24 2 HD E425 


你 可 能 已 经 看 出 了 问题 。 如果 你 要 将 苹果 的 价格 存储 到 散 列表 中 ,分 配给 你 的 是 第 一 个 位 置 。 


APPLE5 仆 
接 下 来 ， 你 要 将 香蕉 的 价格 存储 到 散 列 表 中 ， 分 配给 你 的 是 第 二 个 位 置 。 
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APPLEsS 起 :大 < BANANAS 


一 切 顺利 ! 但 现在 你 要 将 鳄 梨 的 价格 存储 到 散 列表 中 ， 分 配给 你 的 又 是 第 一 个 位 置 。 


0.67| 039 
APELES? 信 亿 BANANAS 
ANOCADDS? 


不 好 ， 这 个 位 置 已 经 存储 了 苹果 的 价格 ! 怎么 办 ?这 种 情况 被 称 为 冲突 collision ) : 给 两 
个 键 分 配 的 位 置 相同 。 这 是 个 问题 。 如 果 你 将 鳞 梨 的 价格 存储 到 这 个 位 置 ， 将 覆盖 苹果 的 价格 ， 
以 后 再 查询 苹果 的 价格 时 ， 得 到 的 将 是 句 梨 的 价格 ! 冲突 很 糟糕 ,必须 要 避免 。 人 处 理 冲突 的 方式 
很 多 ， 最 简单 的 办 法 如 下 : 如 果 两 个 键 映射 到 了 同一 个 位 置 ， 就 在 这 个 位 置 存储 一 个 链表 。 


CCDE 


广 
看 著 的 价格 


在 这 个 例子 中 ，apple 和 avocado 映 射 到 了 同一 个 位 置 ， 因 此 在 这 个 位 置 存储 一 个 链表 。 在 需 
要 查询 香 礁 的 价格 时 ， 速度 依然 很 快 。 但 在 需要 查询 苹果 的 价格 时 ,速度 要 慢 些 : 你 必须 在 相应 
的 链表 中 找到 apple。 如 果 这 个 链表 很 短 , 也 没什么 大 不 了 只 需 搜 索 三 四 个 元 素 。 但 是 , 假设 
你 工作 的 杂货 店 只 销售 名 称 以 字母 A 打头 的 商品 。 


| 这 些 位 置 都 


ee 


等 等 ! 除 第 一 个 位 置 外 , 整个 散 列表 都 是 空 的 ,而 第 一 个 位 置 包含 一 个 很 长 的 列表 ! 换言之 ， 
这 个 散 列 表 中 的 所 有 元 素 都 在 这 个 链表 中 ， 这 与 一 开始 就 将 所 有 元 素 存储 到 一 个 链表 中 一 样 精 
糕 : 散 列 表 的 速度 会 很 慢 。 
这 里 的 经 验 教 训 有 两 个 。 
口 散 列 函数 很 重要 。 前 面 的 散 列 函数 将 所 有 的 键 都 映射 到 一 个 位 置 ， 而 最 理想 的 情况 是 ， 
散 列 函 数 将 键 均匀 地 映射 到 散 列 表 的 不 同位 置 。 
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口 如 果 散 列表 存储 的 链表 很 长 ， 散 列表 的 速度 将 急剧 下 降 。 然 而 ， 如 果 使 用 的 散 列 函数 很 
好 ， 这 些 链 表 就 不 会 很 长 ! 


散 列 函 数 很 重要 ,好 的 散 列 函数 很 少 导 致 冲突 。 那 么 , 如何 选 择 好 的 散 列 函数 呢 ? 这 将 在 下 


一 节 介 绍 ! 


5.4 性 能 


本 章 开 头 是 假设 你 在 杂货 店 工作 。 你 想 打 造 一 个 让 你 能 够 迅速 获 
悉 商品 价格 的 工具 ， 而 散 列 表 的 速度 确实 很 快 。 


在 平均 情况 下 ， 散 列表 执行 各 种 操作 的 时 间 都 为 0(1)。0(1) 被 称 
为 常量 时 间 。 你 以 前 没有 见 过 常量 时 间 ， 它 并 不 意味 着 马上 ， 而 是 说 
不 管 散 列表 多 大 ， 所 需 的 时 间 都 相同 。 例 如 ， 你 知道 的 ， 简 单 查找 的 
运行 时 间 为 线性 时 间 。 数列 珍 的 性 能 


OW 
发 性 时 间 
( 简单 查 起 ) 


二 分 查找 的 速度 更 快 ， 所 需 时 间 为 对 数 时 间 。 


QCLoqm 
对 区 时间 
工分 查找 ) 


在 散 列 表 中 查找 所 花费 的 时 间 为 常量 时 间 。 


OU) 
常量 对 间 
(数列 玫 ) 
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一 条 水 平 线 , 看 到 了 吧 ? 这 意味 着 无 论 散 列表 包含 一 个 元 素 还 是 10 亿 个 元 素 , 从 其 中 获取 数 
据 所 需 的 时 间 都 相同 。 实际 上 , 你 以 前 见 过 常量 时 间 一 一 从 数组 中 获取 一 个 元 素 所 需 的 时 间 就 是 
固定 的 : 不 管 数组 多 大 ， 从 中 获取 一 个 元 素 所 需 的 时 间 都 是 相同 的 。 在 平均 情况 下 ， 散 列表 的 速 
度 确 实 很 快 。 

在 最 糟 情况 下 ， 散 列表 所 有 操作 的 运行 时 间 都 为 CCon) 
散 列 表 同 数组 和 链表 比较 一 下 。 


线性 时 间 ， 这 真 的 很 慢 。 我 们 来 将 


数列 天 ”数列 天 
(年 克 (最 不 
Eo 情况 ) 世 组 ”和 链 老 


多 | oo| ow oo oo 


在 平均 情况 下 ， 散 列表 的 查找 (获取 给 定 索引 处 的 值 ) 速度 与 数组 一 样 快 ， 而 插入 和 删除 速 
度 与 链表 一 样 快 ， 因 此 它 兼 具 两 者 的 优点 ! 但 在 最 糟 情况 下 ， 散 列表 的 各 种 操作 的 速度 都 很 慢 。 
因此 , 在 使 用 散 列 表 时 , 避 开 最 糟 情况 至 关 重 要 。 为 此 , 需要 避免 冲突 。 而 要 避免 冲突 , 需要 有 : 
口 较 低 的 填 装 因子 ; 
口 良好 的 散 列 函 数 。 


说 明 
接 下 来 的 内 容 并 非 必 读 的 ， 我 将 讨论 如 何 实现 散 列 表 ， 但 你 根本 就 不 需要 这 样 做 。 不 管 
人 
能 良好 。 下 面 带 你 去 看 看 幕后 的 情况 。 


5.4.1 填 装 因子 
散 列表 的 填 装 因子 很 容易 计算 。 


散 列 末 包 会 的 和 元素 炽 


位 置 各 数 
散 列表 使 用 数组 来 存储 数据 ， 因 此 你 需要 计算 数组 中 被 占用 的 位 置 数 。 例如， 下 述 散 列 表 的 
装 因子 为 203， 即 0.4。 
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已 占用 的 位 置 
V a 


填 紫 辐 子 = 6 
下 面 这 个 散 列 表 的 填 装 因子 为 多 少 呢 ? 
读 鉴 因子 
如 果 你 的 答案 为 13， 那 就 对 了 。 填 装 因子 度量 的 是 散 列 表 中 有 多 少 位 置 是 空 的 。 
假设 你 要 在 散 列表 中 存储 100 种 商品 的 价格 , 而 该 散 列表 包含 100 个 位 置 .那么 在 最 佳 情况 下 ， 


每 个 商品 都 将 有 自己 的 位 置 。 
< CE 


这 个 散 列 表 的 填 装 因子 为 1。 如 果 这 个 散 列 表 只 有 50 个 位 置 呢 ? 填充 因子 将 为 2。 不 可 能 让 每 
种 商品 都 有 自己 的 位 置 ， 因 为 没有 足够 的 位 置 ! 填 装 因子 大 于 1 意味 着 商品 数量 超过 了 数组 的 位 
置 数 。 一 旦 填 装 因子 开始 增 大 ， 你 就 需要 在 散 列 表 中 添加 位 置 ， 这 被 称 为 调整 长 度 (resizing ) 。 
例如 ,假设 有 一 个 像 下 面 这 样 相当 满 的 散 列 表 。 


你 就 需要 调整 它 的 长 度 。 为 此 ， 你 首先 创建 一 个 更 长 的 新 数组 : 通常 将 数组 增长 一 倍 。 


[LET 


接 下 来 ,你 需要 使 用 函数 hash 将 所 有 的 元 素 都 插入 到 这 个 新 的 散 列表 中 。 


[sl Nae) 


填 柴 因子 = 3/g 
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这 个 新 散 列 表 的 填 装 因子 为 3/8， 比 原来 低 多 了 ! 填 装 因子 越 低 ， 发 后 冲突 的 可 能 性 越 小 ， 
散 列 表 的 性 能 越 高 。 一 个 不 错 的 经 验 规则 是 : 一 旦 填 装 因子 大 于 0.7， 就 调整 散 列 表 的 长 度 。 

你 可 能 在 想 , 调整 散 列 表 长 度 的 工作 需要 很 长 时 间 ! 你 说 得 没 错 ， 调 整 长 度 的 开销 很 大 ， 
此 你 不 会 希望 频繁 地 这 样 做 。 但 平均 而 言 ， 即 便 考 虑 到 调整 长 度 所 需 的 时 间 ， 散 列表 操作 所 需 的 
时 间 也 为 0(1)。 


5.4.2 良好 的 散 列 函数 
良好 的 散 列 函 数 让 数组 中 的 值 呈 均匀 分 布 。 


2 4 lo 


糟糕 的 散 列 函数 让 值 扎堆 ， 导 致 大 量 的 冲突 。 


什么 样 的 散 列 函数 是 良好 的 呢 ? 你 根本 不 用 操心 一 一 天 塌 下 来 有 高 个 子 顶 着 。 如 果 你 好 奇 ， 
可 研究 一 下 SHA 函数 〈 本 书 最 后 一 章 做 了 简要 的 介绍 )。 你 可 将 它 用 作 散 列 函 数 。 

练习 

散 列 函数 的 结果 必须 是 均匀 分 布 的 , 这 很 重要 。 它们 的 映射 范围 必须 尽 可 能 大 。 最 糟糕 的 散 

列 函 数 英 过 于 将 所 有 输入 都 映射 到 散 列表 的 同一 个 位 置 。 

假设 你 有 四 个 处 理 字符 串 的 散 列 函 数 。 

A. 不管 输入 是 什么 ， 都 返回 1。 

B. 将 字符 串 的 长 度 用 作 索 引 。 

C. 将 字符 串 的 第 一 个 字符 用 作 索 引 。 即 将 所 有 以 a 打 头 的 字符 串 都 映射 到 散 列 表 的 同一 个 位 
置 ， 以 此 类 推 。 


D. 将 每 个 字符 都 映射 到 一 个 素数 : a=2, b=3, c=5,，d=7,e=11， 等 等 。 对 于 给 定 的 字 
符 串 ,这 个 散 列 函 数 将 其 中 每 个 字符 对 应 的 素数 相 加 ， 再 计算 结果 除 以 散 列 表 长 度 的 余数 。 
例如 ， 如 果 散 列表 的 长 度 为 10， 字 符 串 为 bag， 则 索引 为 3+2+17)%10=22%10=2。 
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在 下 面 的 每 个 示例 中 ， 上 述 哪个 散 列 函 数 可 实现 均匀 分 布 ” 假设 散 列 表 的 长 度 为 10。 
5.5 “将 姓名 和 电话 号 码 分 别 作为 键 和 值 的 电话 短 ， 其 中 联系 人 姓名 为 Esther、Ben 、Bob 和 


Dan。 
5.6 ”电池 尺寸 到 功率 的 映射 ， 其 中 电池 尺寸 为 A、AA 、AAA 和 AAAA。 
5.7 书 名 到 作者 的 映射 ， 其 中 书 名 分 别 为 Maus、Fun Home 和 Watchmen。 


5.5 小结 


你 几乎 根本 不 用 自己 去 实现 散 列表 ， 因 为 你 使 用 的 编程 语言 提供 了 散 列 表 实 现 。 你 可 使 用 
Python 提供 的 散 列 表 ， 并 假定 能 够 获得 平均 情况 下 的 性 能 : 常量 时 间 。 


散 列表 是 一 种 功能 强大 的 数据 结构 ， 其 操作 速度 快 ， 还 能 让 你 以 不 同 的 方式 建立 数据 模型 。 
你 可 能 很 快 会 发 现 自己 经 常 在 使 用 它 。 
口 你 可 以 结合 散 列 函数 和 数组 来 创建 散 列 表 。 5 
口 冲突 很 糟糕 ， 你 应 使 用 可 以 最 大 限度 减少 冲突 的 散 列 函数 。 
口 散 列表 的 查找 、 插 入 和 删除 速度 都 非常 快 。 
口 散 列表 适合 用 于 模拟 映射 关系 。 
口 一 旦 填 装 因子 超过 0.7， 就 该 调整 散 列 表 的 长 度 。 
口 散 列表 可 用 于 缓存 数据 ( 例如 ， 在 Web 服 务 器 上 )。 
口 散 列表 非常 适合 用 于 防止 重复 。 


广度 优先 搜索 


本 章 内 容 

口 学 习 使 用 新 的 数据 结构 图 来 建立 网 络 模型 。 

口 学 习 广 度 优先 搜索 ， 你 可 对 图 使 用 这 种 算法 回答 诸如 “到 X 的 最 短路 径 是 什么 ”等 问题 。 
口 学 习 有 向 图 和 无 向 图 。 

口 学 习 扰 扑 排序 ， 这 种 排序 算法 指出 了 节点 之 间 的 依赖 关系 。 


本 章 将 介绍 图 。 首先 , 我 将 说 说 什么 是 图 (它们 不 涉及 X 轴 和 7 轴 ), 再 介绍 第 一 种 图 算法 一 一 
广度 优先 搜索 (breadth-first search，BFS )。 

广度 优先 搜索 让 你 能 够 找 出 两 样 东 西 之 间 的 最 短 距离 , 不 过 最 短 距离 的 含义 有 很 多 ! 使 用 广 
度 优先 搜索 可 以 : 
口 编写 国际 跳棋 AI， 计 算 最 少 走 多 少 步 就 可 获胜 ; 
口 编写 拼写 检查 器 ， 计 算 最 少 编辑 多 少 个 地 方 就 可 将 错 拼 的 单词 改 成 正确 的 单词 ， 如 将 
READED 改 为 READER 需 要 编辑 一 个 地 方 ; 
口 根据 你 的 人 际 关系 网 络 找到 关系 最 近 的 医生 。 

在 我 所 知道 的 算法 中 , 图 算法 应 该 是 最 有 用 的 。 请 务必 仔细 阅读 接 下 来 的 几 章 ，i 
将 经 常用 到 。 


» 


s 算 法 你 


[pa 
| 发 
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6.1 图 简介 


假设 你 居住 在 旧金山 ， 要 从 双子 峰 前 往 金门 大 桥 。 你 想 乘 公交 车 前 往 ， 并 希望 换 乘 最 少 。 可 
乘坐 的 公交 车 如 下 。 


为 找 出 换 乘 最 少 的 乘 车 路 线 ， 你 将 使 用 什么 样 的 算法 ? 
一 步 就 能 到 达 金 门 大 桥 吗 ? 下面 突出 了 所 有 一 步 就 能 到 达 的 地 方 。 


金门 大 桥 未 突出 ， 因 此 一 步 无 法 到 达 那 里 。 两 步 能 吗 ? 


金门 大 桥 也 未 突出 ， 因 此 两 步 也 到 不 了 。 三 步 呢 ? 


/1 1A 


金门 大 桥 突 出 了 ! 因此 从 双子 峰 出 发 ， 


可 沿 下 面 的 路 线 三 步 到 达 金 门 大 桥 。 


还 有 其 他 前 往 


金门 大 桥 的 路 线 ， 但 它们 更 远 〈 需 要 四 步 )。 这 个 算法 发 现 ， 前 往 金门 大 桥 的 
最 短路 径 需 要 三 步 。 这 种 问题 被 称 为 最 短路 径 问 题 ( shorterst-path problem ) 。 你 经 常 要 找 出 最 短 


路 径 , 这 可 能 是 前 往 朋友 家 的 最 短路 径 , 也 可 能 是 国际 象棋 中 把 对 方 将 死 的 最 少 步 数 。 解决 最 短 
路 径 问 题 的 算法 被 称 为 广度 优先 搜索 。 


要 确定 如 何 从 双子 峰 前 往 金 门 大 桥 ， 需 要 两 个 步 又 。 
(1) 使 用 图 来 建立 问题 模型 。 

(2) 使 用 广度 优先 搜索 解决 问题 。 

下 面 介 绍 什么 是 图 ， 然 后 再 详细 探讨 广度 优先 搜索 。 
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6.2 图 是 什么 


图 模拟 一 组 连接 。 例 如, 假设 你 与 朋友 玩 牌 , 并 要 模拟 谁 欠 
谁 钱 ， 可 像 下面 这 样 指出 Alex 欠 Rama 钱 。 


图 可 能 类 似 于 下 面 这 样 。 


让 
恬 
汞 
六 
什 


指出 谁 欠 谁 钱 的 图 


Alex 欠 Rama 钱 ，Tom 从 Adit 钱 ， 等 等 。 图 由 节点 (node ) 和 边 ( edge ) 组 成 。 


节点 节点 


y 2 yy 
就 这 么 简单 ! 图 由 节点 和 边 组 成 。 一 个 节点 可 能 与 众多 节点 直接 相连 , 这 些 节点 被 称 为 邻居 。 


在 前 面 的 欠 钱 图 中 ，Rama 是 Alex 的 邻居 。Adit 不 是 Alex 的 邻居 ， 因 为 他 们 不 直接 相连 。 但 Adit 既 
是 Rama 的 邻居 ， 又 是 Tom 的 邻居 。 


图 用 于 模拟 不 同 的 东西 是 如 何 相连 的 。 下 面 来 看 看 广度 优先 搜索 。 


6.3 广度 优先 搜索 


第 1 章 介 绍 了 一 种 查找 算法 一 一 二 分 查找 。 广 度 优先 搜索 是 一 种 用 于 图 的 查找 算法 ， 可 帮助 
回答 两 类 问题 。 
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口 第 一 类 问题 : 从 节点 A 出 发 ， 有 前 往 节 点 B 的 路 径 吗 ? 
口 第 二 类 问题 : 从 节点 A 出 发 ， 前 往 节 点 B 的 哪 条 路 径 最 短 ? 

前 面 计算 从 双子 峰 前 往 金 门 大 桥 的 最 短路 径 时 , 你 使 用 过 广度 优先 搜索 。 这 个 问题 属于 第 二 
类 问题 : 哪 条 路 径 最 短 ? 下 面 来 详细 地 研究 这 个 算法 ,你 将 使 用 它 来 回答 第 一 类 问题 :有 路 径 吗 ? 


假设 你 经 营 着 一 个 芒果 农场 ,需要 寻找 芒果 销售 商 ， 以 便 将 芒果 卖 给 他 。 在 Facebook， 你 与 
芒果 销售 商 有 联系 吗 ? 为 此 ， 你 可 在 朋友 中 查找 。 


BoB8 


A 人 LVCE 


这 种 查找 很 简单 。 首 先 ， 创 建 一 个 朋友 名 单 。 


口 ALIcE 


口 Bope 
G cLAIRE 


路 


然后 ， 依 次 检查 名 单 中 的 每 个 人 ， 看 看 他 是 否 是 芒果 销售 商 。 
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是 大功告成 
AASGCE 是 亿 果 销 
售 商 吗 ? Ni 


是 ， 大功 告 成 
一 808 是 号 时 销售 
-Bo 一 商号? SX 
口 CLA\RE 
ES 
办 . 
CE CLAIRE 时 站 黑 销 姜 是 :大功 车 届 
-ete | > 
ry 党 至 : 没有 有 届 友 是 
冯 时 销售 商 


假设 你 没有 朋友 是 芒果 销售 商 ， 那 么 你 就 必须 在 朋友 的 朋友 中 查找 。 


ANUT THoM 


CLAIRE 


ALCE 


检查 名 单 中 的 每 个 人 时 ， 你 都 将 其 朋友 加 入 名 单 。 


hn 
AAS9GCE 是 志 果 后 
> 拓 店 言 本 一 大: 将 ALIGE 的 所 有 18, einee 
: 朋友 都 如 六 查找 和 名单 ~_D Peccy - 
Sa 
/PEGG0 被 如 


六 查 我 名 再 
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这 样 一 来 ,你 不 仅 在 朋友 中 查找 ,还 在 朋友 的 朋友 中 查找 。 别 忘 了 ,你 的 目标 是 在 你 的 人 际 
关系 网 中 找到 一 位 芒果 销售 商 。 因 此 ， 如 果 Alice 不 是 芒果 销售 商 ， 就 将 其 朋友 也 加 入 到 名 单 中 。 
这 意味 着 你 将 在 她 的 朋友 、 朋 友 的 朋友 等 中 查找 。 使 用 这 种 算法 将 搜 遍 你 的 整个 人 际 关系 网 , 直 
到 找到 芒果 销售 商 。 这 就 是 广度 优先 搜索 算法 。 


6.3.1 查找 最 短路 径 
再 说 一 次 ， 广 度 优先 搜索 可 回答 两 类 问题 。 
口 第 一 类 问题 : 从 节点 A 出 发 ， 有 前 往 节 点 B 的 路 径 吗 ? (在 你 的 人 际 关系 网 中 ， 有 芒果 销 
售 商 吗 ? ) 
口 第 二 类 问题 : 从 节点 A 出 发 ， 前 往 节点 B 的 哪 条 路 径 最 短 ? ( 哪个 芒果 销售 商 与 你 的 关系 

最 近 ? ) 

刚才 你 看 到 了 如 何 回答 第 一 类 问题 , 下 面 来 尝试 回答 第 二 类 问题 一 一 谁 是 关系 最 近 的 芒果 销 

售 商 。 例 如 ， 朋 友 是 一 度 关系 ， 朋 友 的 朋友 是 二 度 关系 。 


在 你 看 来 ,一度 关 系 胜 过 二 度 关系 ， 二 度 关系 胜 过 三 度 关系 ,以 此 类 推 。 因 此 ， 你 应 先 在 一 
度 关系 中 搜索 , 确定 其 中 没有 芒果 销售 商 后 , 才 在 二 度 关系 中 搜索 。 广度 优先 搜索 就 是 这 样 做 的 ! 
在 广度 优先 搜索 的 执行 过 程 中 , 搜索 范围 从 起 点 开始 逐渐 向 外 延伸 ， 即 先 检查 一 度 关系 ， 再 检查 
二 度 关系 。 顺 便 问 一 句 : 将 先 检查 Claire 还 是 Anuj 呢 ?Claire 是 一 度 关 系 ， 而 Anuj 是 二 度 关系 ， 因 
此 将 先 检查 Claire， 后 检查 Anuj。 


你 也 可 以 这 样 看 ， 一 度 关系 在 二 度 关 系 之 前 加 入 查找 名 单 。 


你 按 顺 序 依 次 检查 名 单 中 的 每 个 人 ， 看 看 他 是 否 是 芒果 销售 商 。 这 将 先 在 一 度 关系 中 查找 ， 
再 在 二 度 关系 中 查找 ， 因 此 找到 的 是 关系 最 近 的 芒果 销售 商 。 广 度 优 先 搜索 不 仅 查 找 从 A 到 了 B 的 
路 径 ， 而 且 找 到 的 是 最 短 的 路 径 。 
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注意 ， 只 有 按 添加 顺序 查找 时 ， 才 能 实现 这 样 的 目的 。 换 名 话说， 如果 Claire 先 于 Anuj 加 入 
名 单 ， 就 需要 先 检查 Claire ， 再 检查 Anuj 。 如 果 Claire 和 Anuj 都 是 芒果 销售 商 ， 而 你 先 检查 Anuj 
再 检查 Claire， 结 果 将 如 何 呢 ? 找 到 的 芒果 销售 商 并 非 是 与 你 关系 最 近 的 ， 因 为 Anuj 是 你 朋友 的 
朋友 ， 而 Claire 是 你 的 朋友 。 因 此 ， 你 需要 按 添加 顺序 进行 检查 。 有 一 个 可 实现 这 种 目的 的 数据 
结构 ， 那 就 是 队列 (queue ) 。 


6.3.2 ”队列 


队列 的 工作 原理 与 现实 生活 中 的 队列 完全 相同 。 
假设 你 与 朋友 一 起 在 公交 车 站 排队 ， 如 果 你 排 在 他 前 
面 ， 你 将 先 上 车 。 队 列 的 工作 原理 与 此 相同 。 队 列 类 
似 于 栈 ， 你 不 能 随机 地 访问 队列 中 的 元 素 。 队 列 只 支 
持 两 种 操作 : 入 队 和 出 队 。 


将 一 三 多 厌 从 从 列 中 取 
加 六 队列 尖 一 个 元 大 


如 果 你 将 两 个 元 素 加 入 队列 ， 先 加 入 的 元 素 将 在 后 加 入 的 元 素 之 前 出 队 。 因 此 , 你 可 使 用 队 
列 来 表示 查找 名 单 ! 这 样 ， 先 加 入 的 人 将 移出 队 并 先 被 检查 。 


队列 是 一 种 先进 先 出 ( First In First Out，FIFO ) 的 数据 结构 ， 而 栈 是 一 种 后 进 先 出 (Last In 
First Out，LIFO ) 的 数据 结构 。 


FIFO LIFO 
(先进 先 农 ) (后 进 先 和 ) 


84 第 6 章 广度 优先 搜索 


知道 队列 的 工作 原理 后 ， 我 们 来 实现 广度 优先 搜索 ! 
练习 

对 于 下 面 的 每 个 图 ， 使 用 广度 优先 搜索 算法 来 找 出 答案 。 
6.1 找 出 从 起 点 到 终点 的 最 短路 径 的 长 度 。 


6.2 找 出 从 cab 到 bat 的 最 短路 径 的 长 度 。 


6.4 ”实现 图 


首先 ， 需要 使 用 代码 来 实现 图 。 图 由 多 个 节点 组 成 。 

每 个 节点 都 与 邻近 节点 相连 , 如 果 表 示 类 似 于 “你 一 Bob” 
这 样 的 关系 呢 ?” 好 在 你 知道 的 一 种 结构 让 你 能 够 表示 这 种 关 
系 ， 它 就 是 散 列表 ! 

记 住 ， 散 列表 让 你 能 够 将 键 映射 到 值 。 在 这 里 ， 你 要 将 节 
点 映射 到 其 所 有 邻居 。 


| 你 
CLAWE 


AL\CE 


表示 这 种 映射 关系 的 Python 代码 如 下 。 


graph 二 
graph["you"] 


“你 ”被 映射 到 了 一 个 数组 ， 因 此 graph["you 


["alice", "bob", "claire"] 


vi 
A 
人 心 \» 


所 有 邻居 。 


"] 是 一 个 数组 ， 其 中 包含 了 “你 ”的 


图 不 过 是 一 系列 的 节点 和 边 ， 因 此 在 Python 中 ， 只 需 个 
面 这 样 更 大 的 图 呢 ? 


用 上 述 代 码 就 可 表示 一 个 图 。 那 像 下 


表示 它 的 Python 代 码 如 下 。 


graph = {} 

graph[l"you"] = ["alicee™, bop, "celairxe"] 
graph["bob"] = ["anuj", "peggy"] 
graphl"alice"] = ["peggy"] 
graph[l"claire"] = ["thom", "jonny"] 
graphl"anuj"] = [] 

graphl"peggy"] = [ 

graph["thom"] = [] 

graph[l"jonny"] = [ 

顺便 问 一 句 : 键 - 值 对 的 添加 顺序 重要 吗 ? 换 言 之 ， 如 果 你 这 样 编 写 代码 : 
graphl"claire"] = ["thom", "jonny"] 
graph["anuj"] = [] 

而 不 是 这 样 编写 代码 : 

graph["anuj"] = [] 

yraph lL"elairer] = thom "Jonny"] 

对 结果 有 影响 吗 ? 


转 / 人 
尿 / 


只 要 回顾 一 下 前 一 章 介绍 的 内 容 ， 你 就 知道 没 
顺序 无 关 紧要 。 


响 。 散 列表 是 无 序 的 ， 因 此 添加 键 - 值 对 的 
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Anuj 、Peggy、Thom 和 Jonny 都 没有 邻居 ， 这 是 因为 虽然 有 指向 他 们 的 箭头 ， 但 没有 从 他 们 
出 发 指向 其 他 人 的 箭头 。 这 被 称 为 有 向 图 ( directed graph ) ， 其 中 的 关系 是 单 向 的 。 因 此 ，Anuj 
是 Bob 的 邻居 , 但 Bob 不 是 Anuj 的 邻居 。 无 向 图 (undirected graph ) 没有 箭头 ， 直 接 相 连 的 节点 互 
为 邻居 。 例 如 ， 下 面 两 个 图 是 等 价 的 。 


无 向 图 


6.5 ”实现 算法 
先 概述 一 下 这 种 算法 的 工作 原理 。 
1. 创建 一 休 队 列 ， 几 政府 储 要 


4 


2 从 人 队列 中 弹出 一 个 人 


4L7/ 
cE 
Gey. ET 
pa 0 - 


, 飞 了 检查 这 信人 是 硬是 乞 果 
(Eee ] 从 企 商 


mre 


5 回 到 第 2 多 


6 如 时 从 列 为 室 ， 就 说 明 
你 的 人 陈 关 系 网 中 没 峭 
窟 办 销 伪 商 


说 明 
更 新 队列 时 ,我 使 用 术语 “入 队 ” 和 “出 队 ”, 但 你 也 可 能 遇 到 术语 “ 压 入 ”和 “弹出 ”。 
压 入 大 臻 相当 于 入 队 ， 而 弹出 大 致 相当 于 出 队 。 


首先 ， 创 建 一 个 队列 。 在 Python 中 ， 可 使 用 函数 aeaue 来 创建 一 个 双 端 队列 。 


from collections import deque 
search_queue = deque() 媳 和 pe … 创建 一 个 队列 


search_aqueue += graph["you"] <……… 将 你 的 邻居 都 加 入 到 这 个 搜索 队列 中 


别 忘 了 ， oraohtryour] 是 一 个 数组 ， 其 中 包含 你 的 所 有 邻居 ， 如 ["alice"， 
"claire"]。 这 些 邻 居 都 将 加 入 到 搜索 队列 中 。 


bob ny 7 


下 面 来 看 看 其 他 的 代码 。 
while search_aoueue: 怀 ……… 只 要 队列 不 为 空 ， 
person = search_cueue.popleft () <……… 就 取出 其 中 的 第 一 个 人 
if person_is_seller (person): 有 ……… 检查 这 个 人 是 否 是 芒果 销售 商 
print person + " is a mango seller!" <X……… 是 芒果 销售 商 
return True 
else: 
search_queue += graph[person] <<《…… 不 是 芒果 销售 商 。 将 这 个 
return False ……… 如 果 到 达 了 这 里 ， 就 说 明 人 的 朋友 都 加 入 搜索 队列 


队列 中 没 人 是 芒果 销售 商 


， 你 还 需 编 写 函 数 person_is_seller， 判断 一 个 人 是 不 是 芒果 销售 商 ， 如 下 所 示 。 
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def person is_ seller (name): 
return name[-1] == 'm' 


这 个 函数 检查 人 的 姓名 是 否 以 m 绪 尾 : 如 果 是 ， a 这 种 判断 方法 有 点 搞笑 ， 
但 就 这 个 示例 而 言 是 可 行 的 。 下 面 来 看 看 广度 优先 搜索 的 执行 
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当前 的 
Searh queune 


室 的 


Search qveve = deape() 


人 
多 不 是 空地 sg 
~> while Search_queve: [ce [eraine | Fe 
光 交 沪 入 Alicey persow = search-aveve. popLef LC) ee Be 
振 )， i 
人 RS peson-is_seller Cpevsom): 
人 ----- 二 和 全 


Searcw-queve 十 = arapn Cperson)] 


se 


ccA ae 


while seavcv-qveue : 


Persew = seavcw_qveue. People 化 (7 


se 


if persow-is- sellevr (Person) ’ 


search qveve 十 = qraph Cpersonl 
这 个 算法 将 不 断 执行 ， 直 到 满足 以 下 条 件 之 一 : 

口 找到 一 位 芒果 销售 商 ; 

口 队列 变 成 空 的 ， 这 意味 着 你 的 人 际 关系 网 中 没有 芒果 销售 商 。 


Peggy 既 是 Alice 的 朋友 又 是 Bob 的 朋友 ， 因 此 她 将 被 加 入 队列 两 次 : 一 次 是 在 添加 Alice 的 朋 
友 时 ， 男 一 次 是 在 添加 Bob 的 朋友 时 。 因 此 ， 搜 索 队列 将 包含 两 个 Peggy。 


Sh 


JPegqg0 在 搜索 队 
列 守 只 现 了 两 次 


但 你 只 需 检 查 Peggy 一 次 , 看 她 是 不 是 芒果 销售 商 。 如 果 你 检查 两 次 ,就 做 了 无 用 功 。 因 此 ， 


检查 完 一 个 人 后 ， 应 将 其 标记 为 已 检查 ， 且 不 再 检查 他 。 
如 果 不 这 样 做 ， 就 可 能 会 导致 无 限 循环 。 假 设 你 的 人 际 关系 网 类 似 于 下 面 这 样 。 


一 开始 ， 搜 索 队列 包含 你 的 所 有 邻居 。 


现在 你 检查 Peggy。 她 不 是 芒果 销售 商 ， 因 此 你 将 其 所 有 邻居 都 加 入 搜索 队列 。 


天 到 


接 下 来 ， 你 检查 自己 。 你 不 是 芒果 销售 商 ， 因 此 你 将 你 的 所 有 邻居 都 加 入 搜索 队列 。 | 


| PEGEY | 


以 此 类 推 。 这 将 形成 无 限 循环 ， 因 为 搜索 队列 将 在 包含 你 和 包含 Peggy 之 间 反 复 切 换 。 
le 总 
9 
Le 


检查 一 个 人 之 前 , 要 确认 之 前 没 检查 过 他 , 这 很 重要 。 为 此 , 你 可 使 用 一 个 
列表 来 记录 检查 过 的 人 。 


考虑 到 这 一 点 后 ， 广 度 优 先 搜索 的 最 终 代 码 如 下 。 
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def search (name): 
search queue = deque() 
search _ queue += graphlnamel] 
while search queue: 
person = search queue.popleft() 
if not person in searched: 入 仅 当 这 个 人 没 检查 过 时 才 检 查 
if person is_seller (person): 
print person + " is a mango seller!" 
return True 
else: 
search queue += graphlpersonl] 
searched.append (person) 有 ……… 将 这 个 人 标记 为 检查 过 
return False 


search ("you") 


请 尝试 运行 这 些 代 码 ， 看 看 其 输出 是 否 符合 预期 。 你 也 许 应 该 将 函数 person_is_seller 


改 为 更 有 意义 的 名 称 。 
运行 时 间 


前 行 ( 记 住 , 边 是 


如 果 你 在 你 的 整 
从 一 个 人 到 另 一 个 人 的 箭头 或 连接 )， 


你 还 使 用 了 一 个 队列 , 其 中 包含 要 检查 的 每 个 人 。 将 


天 个 人 际 关系 网 中 搜索 芒果 销售 商 ， 就 意味 着 你 将 沿 每 条 边 前 
因此 运行 时 间 至 少 为 0( 边 数 )。 


一 个 人 添加 到 队列 需要 的 时 间 是 固定 的 ， 


即 为 0(1)， 因 此 对 每 个 人 都 这 样 做 需要 的 总 时 间 为 O( 人 数 )。 所 以 ,广度 优 先 搜索 的 运行 时 间 为 


O( 人 数 +j 
练习 
下 面 的 / 


ee 


边 数 )， 这 通常 写作 O(+ 如 ， 其 中 1 为 顶点 (vertice ) 数 ，E 为 边 数 。 


\ 图 说 明了 我 早晨 起 床 后 要 做 的 事情 。 


该 图 指出 ， 我 不 能 


没 刷 牙 就 吃 早餐 ， 


“ 吃 早餐 ”依赖 于 “刷牙 ”。 


因此 
另 一 方面 ， 洗 澡 不 依赖 于 刷牙 ， 因 为 我 可 以 先 洗澡 再 刷牙 。 根 据 这 个 图 ， 可 创建 一 个 列表 ， 


间 出 我 需要 按 什么 顺序 完成 早晨 起 ) 


床 后 要 做 的 事情 : 


(1) 起 床 

(2) 洗澡 

(3) 刷牙 

(4) 吃 早餐 

请 注意 ,“ 洗 澡 ” 可 随便 移动 ， 因 此 下 面 的 列表 也 可 行 : 

(1) 起 床 

(2) 刷牙 

(3) 洗澡 

(4) 吃 早餐 

6.3 请 问 下 面 的 三 个 列表 哪些 可 行 、 哪 些 不 可 行 ? 

A. b. CC 

本 1 起 麻 1. 
3 汪 尖 2 刷牙 2 起 诛 
> 3 啤 千 此 了 剧本 
2 4 洗 源 各 咯 午 敖 


6.4 下 面 是 一 个 更 大 的 图 ， 请 根据 它 创建 一 个 可 行 的 列表 。 


从 某 种 程度 上 说 , 这 种 列表 是 有 序 的 。 如 果 任 务 A 依 赖 于 任务 B, 在 列表 中 任务 A 就 必须 在 任 
务 B 后 面 。 这 被 称 为 拓扑 排序 ， 使 用 它 可 根据 图 创建 一 个 有 序列 表 。 假 设 你 正在 规划 一 场 婚 
礼 , 并 有 一 个 很 大 的 图 ， 其 中 充斥 着 需要 做 的 事情 , 但 却 不 知道 要 从 哪里 开始 。 这 时 就 可 使 
用 拓扑 排序 来 创建 一 个 有 序 的 任务 列表 。 


假设 你 有 一 个 家 谱 。 


这 是 一 个 图 ， 因 为 它 由 节点 (人 ) 和 边 组 成 。 其 中 的 边 从 一 个 节点 指向 其 父母 , 但 所 有 的 边 
都 往 下 指 。 在 家 谱 中 ， 往 上 指 的 边 不 合 情 理 ! 因为 你 父亲 不 可 能 是 你 祖父 的 父亲 ! 


这 种 图 被 称 为 树 。 树 是 一 种 特殊 的 图 ， 其 中 没有 往 后 指 的 边 。 
6.5 ”请 问 下 面 哪个 图 也 是 树 ? 


条 


A <. 
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6.6 小结 


口 广度 优先 搜索 指出 是 否 有 从 A 到 B 的 路 径 。 
口 如 果 有 ， 广 度 优先 搜索 将 找 出 最 短路 径 。 


口 面临 类 似 于 寻找 最 短路 径 的 问题 时 ， 可 尝试 使 用 图 来 建立 模型 再 使 用 广度 优先 搜索 来 
解决 问题 。 


口 有 向 图 中 的 边 为 箭头 , 箭头 的 方向 指定 了 关系 的 方向 , 例如 , rama 一 adit 表 示 rama 从 adit 钱 。 
口 无 向 图 中 的 边 不 带 箭 头 ， 其 中 的 关系 是 双向 的 ， 例 如 ，ross 

会 ， 而 rachel 也 与 ross 约 会 ”。 
口 队列 是 先进 先 出 (FIFO ) 的 。 
口 栈 是 后 进 先 出 ( LIFO ) 的 。 


- rachel 表 示 “ross 与 rachel 约 


口 你 需要 按 加 入 顺序 检查 搜索 列表 中 的 人 ， 和 否则 找到 的 就 不 是 最 短路 径 ， 因 此 搜索 列表 必 
须 是 队列 。 


口 对 于 检查 过 的 人 ， 务 必 不 要 再 去 检查 ， 和 否则 可 能 导致 无 限 循环 。 
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狄 元 斯 特 拉 算 法 


章 内 容 

口 继续 图 的 讨论 ， 介 绍 加 权 图 一 一 提高 或 降低 某 些 边 的 权重 。 
0 iss 4s 
口 介绍 


这 是 最 短路 径 ， 因为 段 数 最 少 
间 ， 你 将 发 现 有 更 快 的 路 径 。 


只 有 三 段 , 但 不 一 定 是 最 快 路 径 。 如 果 给 这 些 路 段 加 上 时 


7.1 使 用 狄 克 斯 特 拉 算 法 95 


你 在 前 一 章 使 用 了 广度 优先 搜索 ， 它 找 出 的 是 段 数 最 少 的 路 径 〈 如 第 一 个 图 所 示 )。 如 果 你 
要 找 出 最 快 的 路 径 ( 如 第 二 个 图 所 示 )， 该 如 何 办 呢 ? 为 此 ， 可 使 用 另 一 种 算法 一 一 狄 克 斯 特 拉 
算法 ( Dijkstra’s algorithm )。 


7.1 ”使 用 狄 克 斯 特 拉 算 法 
下 面 来 看 看 如 何 对 下 面 的 图 使 用 这 种 算法 。 


其 中 每 个 数字 表示 的 都 是 时 间 , 单位 分 钟 。 为 找 出 从 起 点 到 终点 耗 时 最 短 的 路 径 ， 你 将 使 用 
狄 克 斯 特 拉 算 法 。 
如 果 你 使 用 广度 优先 搜索 ， 将 得 到 下 面 这 条 段 数 最 少 的 路 径 。 


地 分 入 


这 条 路 径 耗 时 7 分 钟 。 下 面 来 看 看 能 否 找 到 耗 时 更 短 的 路 径 ! 狄 克 斯 特 拉 算 法 包含 4 个 步骤 。 
(1) 找 出 “最 便宜 ”的 节点 ， 即 可 在 最 短 时 间 内 到 达 的 节点 。 

(2) 更 新 该 节点 的 邻居 的 开销 ， 其 含义 将 稍 后 介绍 。 

(3) 重复 这 个 过 程 ， 直 到 对 图 中 的 每 个 节点 都 这 样 做 了 。 


(4) 计算 最 终 路 径 。 
第 一 步 : 找 出 最 便宜 的 节点 。 你 站 在 起 点 ， 不 知道 该 前 往 节 点 A 还 是 前 往 节 点 B。 前 往 这 两 


个 节点 都 要 多 长 时 间 呢 ? 
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前 往 节 点 A 需 要 6 分 钟 ， 而 前 往 节点 B 需 要 2 分 钟 。 至 于 前 往 其 他 节点 ， 你 
还 不 知道 需要 多 长 时 间 。 


A 1s 

由 于 你 还 不 知道 前 往 终点 需要 多 长 时 间 , 因此 你 假设 为 无 穷 大 ( 这样 做 的 上 B |2 | 

原因 你 马上 就 会 明白 )。 节 点 B 是 最 近 的 一 2 分 钟 就 能 达到 。 | ee| 
第 二 步 : 计算 经 节点 B 前 往 其 各 个 邻居 所 需 的 时 间 。 


多 Dy 
竹 节 点 及 询 ~ 
往 闻 点 A 只 7 
需 5 分 钟 Py 
OE 


但 经 由 


对 于 节点 B 的 邻居 ， 如 果 找 到 前 往 它 的 更 短路 径 ， 就 更 新 其 开销 。 在 这 里 ， 你 找到 了 : 


往 方 点 A 的 更 短路 径 ( 时 间 从 6 分 钟 缩短 到 5 分 钟 ); 
往 终 点 的 更 短路 径 ( 时 间 从 无 穷 大 缩短 到 7 分 钟 )。 


训 


口 
口 
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第 三 步 : 重复 ! 


重复 第 一 步 : 找 出 可 在 最 短 时间 内 前 往 的 节点 。 你 对 节点 B 执 行 了 第 二 步 ， 除 节点 B 外 ， 可 
在 最 短 时 间 内 前 往 的 节点 是 节点 A。 


你 发 现 前 往 终点 的 时 间 为 6 分 钟 ! 
你 对 每 个 节点 都 运行 了 狄 克 斯 特 拉 算法 〈 无 需 对 终点 这 样 做 )。 现在， 你 知道 : 


口 前 往 节点 B 需 要 2 分 钟 ; 
口 前 往 节 点 A 需 要 5 分 钟 ; 


口 前 往 终点 需要 6 分 钟 。 
节点 耗 /对 
| A js 
[a 
最 后 一 步 计算 最 终 路 径 将 留 到 下 一 节 去 介绍 ， 这 里 先 直接 将 最 终 路 径 告 诉 你 。 


如 果 使 用 广度 优先 搜索 ， 找 到 的 最 短路 径 将 不 是 这 条 ， 因 为 这 条 路 径 包 含 3 段 ， 而 有 一 条 从 
起 点 到 终点 的 路 径 只 有 两 段 。 
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广度 访 先 楼 索 我 测 的 最 短路 经 
在 前 一 章 ， 你 使 用 了 广度 优先 搜索 来 查找 两 点 之 间 的 最 短路 径 , 那 时 “最 短路 径 ” 的 意思 是 
段 数 最 少 。 在 狄 克 斯 特 拉 算 法 中 , 你 给 每 段 都 分 配 了 一 个 数字 或 权重 ， 因 此 狄 区 斯 特 拉 算法 找 出 
的 是 总 权重 最 小 的 路 径 。 


加 瓜 图 非 加 反 图 
( 便 用 炙 充 斯 特 拉 算 法 ) ( 健 用 广 唐 访 先 搜索 ) 
这 里 重 述 一 下 ， 狄 克 斯 特 拉 算法 包含 4 个 步骤 。 
(1) 找 出 最 便宜 的 节点 ， 即 可 在 最 短 时 间 内 前 往 的 节点 。 


(2) 对 于 该 节点 的 邻居 ， 检 查 是 否 有 前 往 它 们 的 更 短路 径 ， 如 果 有 ， 就 更 新 其 开销 。 
(3) 重复 这 个 过 程 ， 直 到 对 图 中 的 每 个 节点 都 这 样 做 了 。 
(4) 计算 最 终 路 径 。( 下 一 节 再 介绍 ! ) 


7.2 ”术语 
介绍 其 他 狄 克 斯 特 拉 算 法 使 用 示例 前 ， 先 来 港 清 一 些 术语 。 
狄 克 斯 特 拉 算 法 用 于 每 条 边 都 有 关联 数字 的 图 ， 这 些 数字 称 为 权重 ( weight )。 


Sy 
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带 权 重 的 图 称 为 加 权 图 ( weighted graph ), 不 带 权 重 的 图 称 为 非 加 权 图 (unweighted graph )。 


6 A 外 
0 
< Ae 5 
加 瓜 图 


四 
正如 反 图 
要 计算 非 加权 图 中 的 最 短路 径 , 可 使 用 广度 优先 搜索 。 要 计算 个 
加 权 图 中 的 最 短路 径 , 可 使 用 狄 克 斯 特 拉 算 法 。 图 还 可 能 有 环 ， 而 风 . Ls 
环 类 似 右面 这 样 。 关 安 ， 朗 一 
圈 应 浆 回 到 
这 意味 着 你 可 从 一 个 节点 出 发 , 走 一 圈 后 又 回 到 这 个 节点 。 假 4&8 G 
设 在 下 面 这 个 带 环 的 图 中 ， 你 要 找 出 从 起 点 到 终点 的 最 短路 径 。 


也 可 选择 包含 环 的 路 径 。 


这 两 条 路 径 都 可 到 达 终 点 ， 但 环 增 加 了 权重 。 如 果 你 愿意 ， 甚 至 可 绕 环 两 次 。 
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每 绕 环 一 次 ， 总 权重 都 增加 8。 因 此 ， 绕 环 的 路 径 不 可 能 是 最 短 的 路 径 。 
最 后 ， 还 记得 第 6 章 对 有 向 图 和 无 向 图 的 讨论 吗 ? 


无 向 图 


无 向 图 意味 着 两 个 节点 彼此 指向 对 方 ， 其 实 就 是 环 ! 


Wil 
oo -a 


在 无 各 图 中 ， 每 条 边 都 是 一 个 环 。 狄 克 斯 特 拉 算 法 只 适用 于 有 向 无 环 图 ( directed acyclic 
graph, DAG )。 


7.3 换 钢 琴 
术语 介绍 得 差不多 了 ， 我们 再 来 看 一 个 例子 ! 这 是 Rama， 想 拿 一 本 乐谱 换 
琴 


架 钢 琴 。 

Alex 说 :“ 这 是 我 最 喜欢 的 乐队 Destroyer 的 海报 ， 我 愿意 拿 它 换 你 的 乐谱 。 
如 果 你 再 加 5 美元 ， 还 可 拿 乐 谱 换 我 这 张 稀有 的 Rick Astley 黑 胶 唱 片 。”Amy 说 : 
“ 哇 , 我 听 说 这 张 黑 胶 唱 片 里 有 首 非 常 好 听 的 歌曲 , 我 愿意 拿 我 的 吉他 或 染 子 或 
换 这 张 海 报 或 黑 腕 唱片 。 


s 
| 9 


一 2 


Beethoven 惊 呼 : “我 一 直 想 要 吉他 ， 我 愿意 拿 我 的 钢琴 换 Amy 的 吉他 或 架子 鼓 。 
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太 好 了 ! 只 要 再 花 一 点 点 钱 ，Rama 就 能 拿 乐 谱 换 架 钢琴 。 现 在 他 需要 确定 的 是 ， 如 何 花 最 
少 的 钱 实现 这 个 目标 。 我 们 来 绘 


这 个 图 中 的 节点 是 大 家 愿意 拿 出 来 交换 的 东西 , 边 的 权重 是 交换 时 需要 额外 加 多 少 钱 。 拿 海 
报 换 吉他 需要 额外 加 30 美 元 ， 拿 黑 胶 唱片 换 吉他 需要 额外 加 15 美 元 。Rama 需 要 确定 采用 哪 种 路 
径 将 乐谱 换 成 钢琴 时 需要 支付 的 额外 费用 最 少 。 为 此 ,可 以 使 用 狄 克 斯 特 拉 算 法 ! 别 忘 了 ， 狄 克 
斯 特 拉 算 法 包含 四 个 步骤 。 在 这 个 示例 中 ,你 将 完成 所 有 这 些 步骤 ， 因 此 你 也 将 计算 最 终 路 径 。 

动手 之 前 , 你 需要 做 些 准备 工作 : 创建 一 个 表格 , 在 其 中 列 出 每 个 节点 的 开销 。 这 里 的 开销 
指 的 是 达到 节点 需要 额外 文 付 多 少 钱 。 


我 们 还 不 知道 
如 合 从 起 点 前 
往 这 些 闻 点 


在 执行 狄 克 斯 特 拉 算 法 的 过 程 中 ， 你 将 不 断 更 新 这 个 表 。 为 计算 最 终 路 径 , 还 需 在 这 个 表 中 
添加 表示 父 节点 的 列 。 


102 第 7 章 狄 克 斯 特 拉 算 法 


这 列 的 作用 将 稍 后 介绍 。 我 们 开始 执行 算法 吧 。 

第 一 步 : 找 出 最 便宜 的 节点 。 在 这 里 ， 换 海报 最 便宜 ， 不 需要 支付 额外 的 费用 。 还 有 更 便宜 
的 换 海报 的 途径 吗 ? 这 一 点 非常 重要 ， 你 一 定 要 想 一 想 。Rama 能 够 通过 一 系列 交换 得 到 海报 ， 
还 能 额外 得 到 钱 吗 ?” 想 清楚 后 接着 往 下 读 。 答 案 是 不 能 ， 因 为 海报 是 Rama 能 够 到 达 的 最 便宜 的 
节点 ， 没 法 再 便宜 了 。 下 面 提供 了 另 一 种 思考 角度 。 假 设 你 要 从 家 里 去 单位 。 


如 果 你 走 经 过 学 校 的 路 , 到 学 校 需要 2 分 钟 。 如 果 你 走 经 过 停车 场 的 路 , 到 停车 场 需 要 6 分 钟 。 
如 果 经 停车 场 前 往 学 校 , 能 不 能 将 时 间 缩 短 到 少 于 2 分 钟 呢 ? 不 可 能 ,因为 只 前 往 停 车 场 就 超过 2 
分 钟 了 。 男 一 方面 ， 有 没有 能 更 快 到 达 停 车 场 的 路 呢 ?” 有 。 


这 就 是 狄 克 斯 特 拉 算 法 背后 的 关键 理念 : 找 出 图 中 最 便宜 的 节点 ， 并 确保 没有 到 该 节点 的 更 
便宜 的 路 径 ! 


回 到 换 钢 琴 的 例子 。 换 海报 需要 支付 的 额外 费用 最 少 。 
第 二 步 : 计算 前 往 该 节点 的 各 个 邻居 的 开销 。 
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现在 的 表 中 包含 低音 吉他 和 架子 鼓 的 开销 。 这 些 开 销 是 用 海报 交换 它们 时 需要 支付 的 额外 
费用 ， 因 此 父 和 点 为 海报 。 这 意味 着 ， 要 到 达 低 音 吉 他 ， 需 要 沿 从 海报 出 发 的 边 前 行 ， 对 架子 
喜来 说 亦 如 此 。 


我 们 经 “海报 ” 
前 往 这 浅 闻 点 


再 次 执行 第 一 
再 次 执行 第 二 


咎 


: 下 一 个 最 便宜 的 节点 是 黑 胶 唱片 一 一 需要 额外 支付 5 美元 。 
: 更 新 黑 胶 唱 片 的 各 个 邻居 的 开销 。 


咎 


| 
你 更 新 了 架子 或 和 吉他 的 开销 ! 这 意味 着 经 “ 黑 胶 唱片 ”前 往 “架子 鼓 ” 和 “吉他 ”的 开销 
更 低 ， 因 此 你 将 这 些 乐器 的 父 节点 改 为 黑 胶 唱片 。 

下 一 个 最 便宜 的 是 吉他 ， 因 此 更 新 其 邻居 的 开销 。 


你 终于 计算 出 了 用 吉他 换 钢 琴 的 开销 ,于 是 你 将 其 父 节点 设置 为 吉他 。 最 后 ,对 最 后 一 个 节 
点 一 一 架子 求 ， 做 同样 的 处 理 。 
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如 果 用 架子 鼓 换 钢琴 ，Rama 需 要 额外 支付 的 费用 更 少 。 因 此 ， 采 用 最 便宜 的 交换 路 径 时 ， 
Rama 需 要 额外 支付 35 美 元 。 

现在 来 兑现 前 面 的 承诺 ,确定 最 终 的 路 径 。 当 前 ,我 们 知道 最 短路 径 的 开销 为 35 美 元 , 但 如 
何 确定 这 条 路 径 呢 ? 为 此 ， 先 找 出 钢琴 的 父 节点 。 


儿 弟 点 节点 
园 胶 喝 池 


钢琴 的 父 节 点 为 架子 鼓 ， 这 意味 着 Rama 需 要 用 架子 喜来 换 钢 琴 。 因 此 你 就 沿 着 这 一 边 。 
我 们 来 看 看 需要 治 哪些 边 前 行 。 钢 琴 的 父 节 点 为 架子 鼓 。 


一 


架子 鼓 的 父 节 点 为 黑 胶 唱片 。 
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因此 Rama 需 要 用 黑 胶 唱片 了 换 架 子 鼓 。 显 然 ， 他 需要 用 乐谱 来 换 黑 胶 唱 片 。 通 过 治 父 届 点 
回 湖 ， 便 得 到 了 完整 的 交换 路 径 。 


邦子 贡 钢 紧 


本 章 前 面 使 用 的 都 是 术语 最 短路 径 的 字面 意思 : 计算 两 点 或 两 人 之 间 的 最 短路 径 。 但 希望 这 
个 示例 让 你 明白 : 最 短路 径 指 的 并 不 一 定 是 物理 距离 ,也 可 能 是 让 某 种 度量 指标 最 小 。 在 这 个 示 
例 中 ， 最 短路 径 指 的 是 Rama 想 要 额外 支付 的 费用 最 少 。 这 都 要 归功 于 狄 克 斯 特 拉 ! 


7.4 负 权 边 
在 前 面 的 交换 示例 中 ，Alex 提 供 了 两 种 可 用 乐谱 交换 的 东西 。 


黑 牙 喝 浅 
#9 
东 谱 


3 
- 心 


活 报 
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假设 黑 胶 唱片 不 是 Alex 的 , 而 是 Sarah 的 , 上 且 Sarah 愿 意 用 黑 胶 唱 片 和 7 美元 换 海 报 。 换 名 话说， 
换 得 Alex 的 海报 后 , Rama 用 它 来 换 Sarah 的 黑 胶 唱片 时 , 不 但 不 用 支付 额外 的 费用 , 还 可 得 7 美元 。 
对 于 这 种 情况 ， 如 何在 图 中 表示 出 来 呢 ? 


黑 胶 喝 频 
Sara/ 肿 意 用 
5S UV 黑 族 喝 澡 和 了 
1 有 飞 乞 禾 海 报 
东 放 习 
p 
海报 


从 黑 胶 唱片 到 海报 的 边 的 权重 为 负 ! 即 这 种 交换 让 Rama 能 够 得 到 7 美元 。 现 在, Rama 有 两 种 
获得 海报 的 方式 。 


黑 详 唱 占 的 
已 2 
东 语 ¥ 东 语 Y 
> 应 
海报 次 拟 


第 二 种 方式 更 划算 
有 两 种 换 得 架子 鼓 的 方式 。 


Rama 可 赚 2 美 元 ! 你 可 能 还 记得 , Rama 可 以 用 海报 换 架 子 鼓 , 但 现在 


里 联唱 上 黑 设 喝 频 
9 5 
车 放 + 车 放 . 
多 他 
海报 3 雁 子 孝 海报 3s 大 子 赣 
总 开 请 ，35 系 先 站 开关 :33 各 和 


第 二 种 方式 的 开销 少 2 美元 ， 他 应 采取 这 种 方式 。 然 而 ， 如 果 你 对 这 个 图 运行 犹 克 斯 特 拉 算 
法 ，Rama 将 选择 错误 的 路 径 一 一 更 长 的 那 条 路 径 。 如 果 有 负 权 边 ， 就 不 能 使 用 狄 克 斯 特 拉 算 法 。 
因为 负 权 边 会 导致 这 种 算法 不 管用 。 下 面 来 看 看 对 这 个 图 执行 狄 克 斯 特 拉 算法 的 情况 。 首 先 ,， 创 
建 开 销 表 。 


7.4 负 权 边 107 


接 下 来 ， 找 出 开销 最 低 的 节点 ， 并 更 新 其 邻居 的 开销 。 在 这 里 ， 开 销 最 低 的 节点 是 海报 。 根 
据 狄 克 斯 特 拉 算 法 ,没有 比 不 支付 任何 费用 获得 海报 更 便宜 的 方式 。( 你 知道 这 并 不 对 !1 ) 无 论 如 
何 ， 我 们 来 更 新 其 邻居 的 开销 。 


思 股 唱 池 
5 
东 畜 
让 
涂 报 35 架子 部 


现在 ， 架 子 鼓 的 开销 变 成 了 35 美 元 。 
我 们 来 找 出 最 便宜 的 未 处 理 节 点 。 


更 新 其 邻居 的 开销 。 


车 话 W 


海报 节点 已 处 理 过 ,这 里 却 更 新 了 它 的 开销 。 这 是 一 个 危险 信和 号。 节点 一 旦 被 处 理 ， 就 意味 
着 没有 前 往 该 节点 的 更 便宜 途径 , 但 你 刚才 却 找到 了 前 往 海 报 节点 的 更 便宜 途径 ! 架子 鼓 没 有 任 
何 邻居 ， 因 此 算法 到 此 结束 ， 最 终 开销 如 下 。 
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最 八 开 销 
换 得 架子 鼓 的 开销 为 35 美 元 。 你 知道 有 一 种 交换 方式 只 需 33 美 元 , 但 狄 克 斯 特 拉 算 法 没有 找 


到 。 这 是 因为 狄 克 斯 特 拉 算 法 这 样 假 设 : 对 于 处 理 过 的 海报 节点 ， 没 有 前 往 该 节点 的 更 短路 径 。 
这 种 假设 仅 在 没有 负 权 边 时 才 成 立 。 因 此 ,不 能 将 狄 克 斯 特 拉 算 法 用 于 包含 负 权 边 的 图 。 在 包含 
负 权 边 的 图 中 ， 要 找 出 最 短路 径 ， 可 使 用 另 一 种 算法 贝尔 曼 - 福 德 算 法 ( Bellman-Ford 
algorithm )。 本 书 不 介绍 这 种 算法 ， 你 可 以 在 网 上 找到 其 详尽 的 说 明 。 


7.5 “实现 
下 面 来 看 看 如 何 使 用 代码 来 实现 狄 克 斯 特 拉 算 法 ， 这 里 以 下 面 的 图 为 例 。 


3 和 
[lo| Iv 


PARENTS 


随 着 算法 的 进行 ， 你 将 不 断 更 新 散 列 表 costs 和 parents。 首 先 ， 需 要 实现 这 个 图 ， 为 此 可 像 第 
6 章 那 样 使 用 一 个 散 列 表 。 
graph = {} 


在 前 一 章 中 ， 你 像 下 面 这 样 将 节点 的 所 有 邻居 都 存储 在 散 列 表 中 。 
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graph["you"] = ["alice", "bob", "claire"] 
但 这 里 需要 同时 存储 邻居 和 前 往 邻 居 的 开销 。 例 如 ， 起 点 有 两 个 邻居 一 一 A 和 B。 
如 何 表示 这 些 边 的 权重 呢 ? 为 何不 使 用 另 一 个 散 列 表 呢 ? 
graph["start"] = {)} 
graphi"start"]["a"] = 6 
graphi"start"]["b"] = 2 

这 个 数列 瑚 又 包 含 数 列 瑚 
此 graph["start"] 是 一 个 散 列 表 。 要 获取 起 点 的 所 有 邻居 ， 可 像 下 面 这 样 做 。 
>>> print graph["start"] .keys1() 
[区 
有 一 条 从 起 点 到 A 的 边 ， 还 有 一 条 从 起 点 到 B 的 边 。 要 获悉 这 些 边 的 权重 ， 该 如 何 办 呢 ? 
>>> print graph["start"]["a"] 
a print graph["start"] ["b"] 
6 


下 面 来 添加 其 他 节点 及 其 邻居 。 


grap 
grap 


grap 
grap 
grap 


grap 


n 


i 


vaw] ("fin"] 
"pb"] = {} 

"pb"] ["a"] = 
| 
"fin"] = {} 


5 


< 终点 没有 任何 邻居 


表示 整个 图 的 散 列 表 类 似 于 下 面 这 样 。 
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接 下 来 ， 需 要 用 一 个 散 列 表 来 存储 每 个 节点 的 开销 。 
节点 的 开销 指 的 是 从 起 点 出 发 前 往 该 节点 需要 多 长 时 间 。 你 知道 的 ， 从 起 


短 的 路 径 )。 你 不 知道 到 终点 需要 多 长 时 间 。 对 于 还 不 知道 的 开销 ， 你 将 其 设 
置 为 无 穷 大 。 在 Python 中 能 够 表示 无 穷 大 吗 ? 你 可 以 这 样 做 : 

nfinity 三: tl1oat 人 (TI 二 7 ) 

创建 开销 表 的 代码 如 下 : 


nfinity. "fat (inf”) 
costs = {} 
costs["a"] 
costs["b"] 
costs["fin"] 


还 需要 一 个 存储 父 节 点 的 散 列表 : 


6 
2 
= infinity 


PARENTS 


创建 这 个 散 列表 的 代码 如 下 : 


parents = {} 


parents["a"] = "start" 
parents["b"] = "start" 
parents["fin"] = None 


最 后 ， 你 需要 一 个 数组 ， 用 于 记录 处 理 过 的 节点 ， 因 为 对 于 同一 个 节点 ， 你 不 用 处 理 多 次 。 


processed = [] 


准备 工作 做 好 了 ， 下 面 来 看 看 算法 。 


只 要 还 有 要 处 理 
的 节点 


更 新 其 舒 司 的 开销 


如 果 硝 侄 后 多 开销 
被 更 新 ， 同 时 更 新 
共 多 第 点 


我 先 列 出 代码 ， 然 后 再 详细 介绍 。 代 码 如 下 。 


在 未 处 理 的 节点 中 找 出 开 
node = findq_ lowest_cost_node(costs)< 销 最 小 的 节点 
while node is not None:<《 ……… 这 个 while 循 环 在 所 有 节点 都 被 处 理 过 后 结束 
cost = costs [modqe] 
neighbors = graph[node] 
for n in neighbors.keys():< 遍历 当前 节点 的 所 有 邻居 
new_cost = cost + neighbors [mn] 
if costs [n] > new_cost:< 如 果 经 当前 节点 前 往 该 邻居 更 近 ， 
costs [n] = new_cost ~…… 就 更 新 该 邻居 的 开销 
parents[n] = node < -同时 将 该 邻居 的 父 节点 设置 为 当前 节点 
processed.append (node)< 将 当前 节点 标记 为 处 理 过 
node = fingd lowest_cost_node(costs) < 找 出 接 下 来 要 处 理 的 节点 ， 并 循环 


这 就 是 实现 狄 克 斯 特 拉 算 法 的 Python 代码 ! 函数 find_lowest_cost_node 的 代码 稍 后 列 
出 ， 我 们 先 来 看 看 这 些 代 码 的 执行 过 程 


找 出 开销 最 低 的 节点 。 


O 


万 hode = find lowedl ot nod(codt) 一 [elz| 


本 


COSsT2 


获取 该 节点 的 开销 和 邻居 。 
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Cot > Costs tnode] 
a] 


heiqhbers = de 人 [ede] 


Neighbors 当 
一 个 炊 列 大 


遍历 邻居 。 


键 值 
for n in heiqghbors,Keys (>: sl 
nt 
We 一 个 节点 列 和 [入 全 二 ， 


每 个 节点 都 有 开销 。 开 销 指 的 是 从 起 点 前 入 该 节点 需要 多 长 时 间 。 在 这 里 ,你 计算 从 起 点 出 
发 ， 经 节点 B 前 往 节 点 A ( 而 不 是 直接 前 往 节 点 A ) 需要 多 长 时 间 。 


hew_cost = Co + neiqhbors[] 


入 SN new-co 入 > 2+3 
占 oo 从 节点 8 到 节点 A 各 
节点 厄 的 开销 ， 妈 了 po = 5 


接 下 来 对 新 旧 开 销 进行 比较 。 


if coNstr] > new_cot; 


2 \ 
原 蒜 前往 节 点 。 。 企 闻 点 3 洛 科 闪 
B15 妈 的 开销 为 6 点 后 的 开销 为 5 
Co5STS VU 


找到 了 一 条 前 往 节 点 A 的 更 短路 径 ! 因此 更 新 节点 A 的 开销 。 
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co 和 邯 s[ 回 = hew-co 革 
个 个 
Ca 已 


CO5STS 


这 条 新 路 径 经 由 节点 B， 因 此 节点 A 的 父 节 点 改 为 节点 B。 


Parerts It:hode 
《6 2 1 
A “ 6”? 


PARENTS 


现在 回 到 了 for 循 环 开头 。 下 一 个 邻居 是 终点 节点 。 


{or nin neighbors .heysC): 


入 


经 节点 B 前 往 终 点 需要 多 长 时 间 呢 ? 


ay + ne iahbevs [9 
J y 2+5 


2 节点 号 到 优点 的 嘴 离 : 5 = 了 


hew- cost = 


需要 7 分 钟 。 终 点 原来 的 开销 为 无 穷 大 ， 比 7 分 钟 长 。 


1 costs S ee 


< 了 


Cos a 


设置 终点 节点 的 开销 和 父 节 点 
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coctstn] = neueo 并 
大 


z 
0 了 


pts [ :rede 
/ 个 
《从 3 区 


PARENTS 
你 更 新 了 节点 B 的 所 有 邻居 的 开销 。 现 在 ， 将 节点 B 标 记 为 处 理 过 。 


Pe cessed. 3fpevd4 (nog) 


处 理 过 的 节点 
《6 R 


找 出 接 下 来 要 处 理 的 节点 。 


证 得 由 
在 和 


noe stind [owedt_Cost node (costs) 
/ 


已 处 理 的 


让 


“A 


获取 节点 A 的 开销 和 邻居 。 


ceo 邯 = costs [node) 
了 


"‘ idnbers = qoth frode] 


El] 
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节点 A 只 有 一 个 邻居 : 终点 节点 


uy ANYO 


for mn in heiahbors. KeysC): 
66 一 一 一 一 


当前 ， 前 往 终点 需要 7 分 钟 。 如 果 经 节点 A 前 往 终 点 ， 需 要 多 长 时 间 呢 ? 


hew-co 计 = ca 或 + neiqhborstn] 


v 
从 起 点 到 节点 ts | 5 + 1 
A 的 开销 : 5 i _ 人 


让 ceostsInl > new_cogt: 


D \ 之 V Y 
原 奉 到 优点 经 节点 M4 到 修 
的 开销 : 7 点 的 开销 ; 6 


经 节点 A 前 往 终 点 所 需 的 时 间 更 短 ! 因此 更 新 终点 的 开销 和 父 古 点 。 


ads nl= nave 
c 0 


eR < 
Pts) -node 
人 


6 作品， 4 


PARENTS 
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处 理 所 有 的 节点 后 , 这 个 算法 就 结束 了 。 希望 前 面 对 执 行 过 程 的 详细 介绍 让 你 对 这 个 算法 有 更 
深入 的 认识 。 函 数 find_lowest_cost_node 找 出 开销 最 低 的 节点 ， 其 代码 非常 简单 ， 如 下 所 示 。 
def findq lowest_cost_node(costs): 


lowest_cost = float ("inf") 
lJowest_cost_node = None 


for node in costs: < 遍历 所 有 的 节点 
GOB CoB ts lnode] 如 果 当 前 节点 的 开销 更 低 
if cost < lowest_cost and node not in processed: <&…… 且 未 处 理 过 
lowest_cost = cost< 就 将 其 视 为 开销 最 低 的 节点 : 


lJowest_cost_node = node 
return lowest_cost_node 


练习 
7.1 在 下 面 的 各 个 图 中 ， 从 起 点 到 终点 的 最 短路 径 的 总 权重 分 别 是 多 少 ? 


7.6 “小结 


口 广度 优先 搜索 用 于 在 非 加 权 图 中 查找 最 短路 径 。 
口 狄 克 斯 特 拉 算 法 用 于 在 加 权 图 中 查找 最 短路 径 。 
口 仅 当权 重 为 正 时 狄 克 斯 特 拉 算 法 才 管 用 。 

口 如 果 图 中 包含 负 权 边 ， 请 使 用 贝尔 曼 - 福 德 算法 。 


第 8 章 


学 习 如 何 处 理 不 可 能 完成 的 任务 : 没有 快速 算法 的 问题 (NP 完 全 问题 ) 。 
学 习 识 别 NP 完 全 问题 ， 以 免 浪 费时 间 去 寻找 解决 它们 的 快速 算法 。 

学 习 近 似 算法 ， 使 用 它们 可 快速 找到 NP 完 全 问题 的 近似 解 。 

学 习 贪 禁 策略 一 一 种 非常 简单 的 问题 解决 策略 。 


8.1 教室 调度 问题 
假设 有 如 下 课程 表 , 你 希望 将 尽 可 能 多 的 课程 安排 在 某 间 教室 上 。 


你 没 法 让 这 些 课 都 在 这 间 教 室 上 ， 因 为 有 些 课 的 上 课时 间 有 冲突 。 


1 3PP 人 ep 112 
处 本 
a 
数学 
计算 所 
Es 
er 


你 希望 在 这 间 教 室 上 尽 可 能 多 的 课 。 如 何 选 出 尽 可 能 多 且 时 间 不 冲突 的 课程 呢 ? 

这 个 问题 好 像 很 难 ， 不 是 吗 ? 实际 上 ， 算 法 可 能 简单 得 让 你 大 吃 一 惊 。 具 体 做 法 如 下 。 

(1) 选 出 结束 最 早 的 课 ， 它 就 是 要 在 这 间 教 室 上 的 第 一 党 课 。 

(2) 接 下 来 ， 必 须 选 择 第 一 党 课 结束 后 才 开始 的 课 。 同 样 ， 你 选择 结束 最 早 的 课 ， 这 将 是 要 
在 这 间 教 室 上 的 第 二 堂 课 。 
重复 这 样 做 就 能 找 出 答案 ! 下 面 来 试 一 坛 。 美 术 课 的 结束 时 间 最 早 ， 为 10:00 am.， 因 此 它 


就 是 第 一 笛 课 。 


ry 


英语 课 不 行 ， 因 为 它 的 时 间 与 美术 课 冲 突 , 但 数学 课 满足 条 件 。 最 后 ,计算 机 课 与 数学 课 的 
时 间 是 冲突 的 ， 但 音乐 课 可 以 。 


因此 将 在 这 间 教 富 上 如 下 三 等 课 。 


q 4:30 1o 10:30 11 11:30 12 
际 本 直 字 oe 


很 多 人 都 跟 我 说 , 这 个 算法 太 容 易 、 太 显而易见 ， 表 定 不 对 。 但 这 正 是 贪 焚 算法 的 优点 一 一 
简单 易 行 ! 贪 焚 算法 很 简单 : 每 步 都 采取 最 优 的 做 法 。 在 这 个 示例 中 ,你 每 次 都 选择 结束 最 早 的 
课 。 用 专业 术语 说 ， 就 是 你 每 步 都 选择 局 部 最 优 解 ， 最 终 得 到 的 就 是 全 局 最 优 解 。 信 不 信 由 你 ， 
对 于 这 个 调度 问题 ， 上 述 简单 算法 找到 的 就 是 最 优 解 ! 
显然 ， 贪 禁 算 法 并 非 在 任何 情况 下 都 行 之 有 效 ， 但 它 易 于 实现 ! 下 面 再 来 看 一 个 例子 。 


8.2 ”背包 问题 

假设 你 是 个 贪 焚 的 小 偷 ， 背 着 可 装 3$ 磅 (1 磅 =0.45 千 克 ) 重 东西 的 
背包 ， 在 商场 伺机 盗窃 各 种 可 装 和 人 背包 的 商品 。 

你 力图 往 背 包 中 装 人 价值 最 高 的 商品 ， 你 会 使 
用 哪 种 算法 呢 ? 

同样 ， 你 采取 贪 焚 策 略 ， 这 非常 简单 。 

(1) 盗 穷 可 装 入 背包 的 最 贵 商品 。 

(2) 再 盗窃 还 可 装 人 背包 的 最 贵 商品 ， 以 此 类 推 。 
1 是 这 次 这 种 贪 禁 策略 不 好 使 了 ! 例如 ， 你 可 盗窃 的 商品 有 下 面 三 种 。 


音响 
3000 系 乞 
30 磅 


A 


笔记 村 史 脑 
2000 奚 移 
20 六 


尺 座 安 了 5 磅 的 宝 间 
篆 包 窜 
重 为 备 ( 向 为 
35 磅 30 磅 
价值 3000 系 乞 


你 偷 到 了 价值 3000 美 元 的 东西 。 且 慢 ! 如 果 不 是 偷 音响 ， 而 是 偷 笔记 本 电脑 和 吉他 ， 总 价 将 


为 3500 美 元 ! 


价值 3500 系 移 


在 这 里 ， 贪 焚 策 略 显然 不 外 


获得 最 优 解 ， 但 非常 接近 。 下 一 章 将 介绍 如 何 找 出 最 优 解 。 不 过 
小 偷 去 购物 中 心 行 宽 时 ， 不 会 强求 所 偷 东 西 的 总 价 最 高 ， 只 要 差不多 就 行 了 。 


从 这 个 示例 你 得 到 了 如 下 启示 : 在 有 些 情 况 下 ， 完 美 是 优秀 的 敌人 。 有 时 候 ， 你 只 需 找到 一 
个 能 够 大 致 解决 问题 的 算法 ， 此 时 贪 焚 算 法 正好 可 派 上 用 场 ,因为 它们 实现 起 来 很 容易 ， 得 到 的 


结果 又 与 正确 结果 相当 接近 。 
练习 
8.1 


你 在 一 家 家 具 公 司 工 作 ， 需 要 将 家 具 发 往 全 国 各 地 ， 为 此 你 需要 将 箱子 装 上 卡车 。 每 


个 箱子 的 尺寸 各 不 相同 ， 你 需要 尽 可 能 利用 每 辆 卡车 的 空间 ， 为 此 你 将 如 何 选 择 要 装 
上 卡车 的 箱子 呢 ? 请 设计 一 种 贪 梦 算 法 。 使 用 这 种 算法 能 得 到 最 优 解 吗 ? 


8.2 ”你 要 去 欧洲 旅行 ， 


总 行程 为 7 天 。 对 于 每 个 旅游 胜地 ， 你 都 给 它 分 配 一 个 价值 一 一 表 
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示 你 有 多 想 去 那里 看 看 ， 并 估算 出 需要 多 长 时 间 。 你 如 何 将 这 次 旅行 的 价值 最 大 化 ? 
请 设计 一 种 贪 焚 算法 。 使 用 这 种 算法 能 得 到 最 优 解 吗 ? 
下 面 来 看 最 后 一 个 例子 。 在 这 个 例子 中 ， 你 别 无 选择 ， 只 能 使 用 贪 焚 算 法 。 


8.3 ”集合 覆盖 问题 


假设 你 办 了 个 广播 节目 , 要 让 全 美 50 个 州 的 听众 都 收听 得 到 。 为 
此 ,你 需要 决定 在 哪些 广播 台 播 出 。 在 每 个 广播 台 播 出 都 需要 支付 费 
用 ， 因 此 你 力图 在 尽 可 能 少 的 广播 台 播 出 。 现 有 广播 台 名 单 如 下 。 


人 


多 


广播 全 履 盖 的 州 


KThHREE 


每 个 广播 台 都 覆盖 特定 的 区 域 ， 不 同 广播 台 的 覆盖 区 域 可 能 重 受 。 


如 何 找 出 覆盖 全 美 50 个 州 的 最 小 广播 台 集 合 呢 ? 听 起 来 很 容易 ,但 其 实 非 常 难 。 具 体 方法 如 下 。 
(1) 列 出 每 个 可 能 的 广播 台 集合 ， 这 被 称 为 紧 集 (power set ) 。 可 能 的 子 集 有 2 个 。 


集合 8S 
人 如 
We & 本 

KTAREE 六 六 

¢ 

KOE 5 

.等 等 .等 等 . 

CO) 在 这 些 集合 中 ， 选 出 覆盖 全 美 30 个 州 的 最 小 集合 。 


问题 是 计算 每 个 可 能 的 广播 台子 集 需要 


很 长 时 间 。 由 于 可 能 的 集合 有 2" 个 ， 因 此 运行 时 间 为 
O(C27)。 如 果 广 播 台 不 多 ， 只 有 5 一 10 个 ， 这 是 可 行 的 。 但 如 果 广 播 台 很 多 ， 结 果 将 如 何 呢 ? 随 着 
广播 台 的 增多 ， 需 要 的 时 间 将 激增 。 假 设 你 每 秒 可 计算 10 个 子 集 ， 所 需 的 时 间 将 如 下 。 


广播 合 惹 量 | 需要 的 对 间 


5 3.2 办 
1 办 1%2.4 罗 
32 413.6% 


1@% A4x15% 
没有 任何 算法 可 以 足够 快 地 解决 这 个 问题 ! 怎么 办 呢 ? 
近似 算法 
贪 林 算法 可 化 解 危 机 ! 使 用 下 面 的 贪 梦 算法 可 得 到 非常 接近 的 解 。 


(1) 选 出 这 样 一 个 广播 台 ， 即 它 覆 盖 了 最 多 的 未 覆盖 州 。 即 便 这 个 广播 台 覆 盖 了 一 些 已 覆盖 
的 州 ， 也 没有 关系 。 


(2) 重复 第 一 步 ， 直 到 覆盖 了 所 有 的 州 。 


这 是 一 种 近似 算法 ( approximation algorithm ) 。 在 获得 精确 解 需要 的 时 间 太 长 时 ， 可 使 用 近 
似 算 法 。 判 断 近 似 算法 优 劣 的 标准 如 下 : 


口 速度 有 多 快 ; 
D 得 到 的 近似 解 与 最 优 解 的 接近 程度 。 
贪 禁 算法 是 不 错 的 选择 ,它们 不 仅 简单 ， 而 且 通 常 运行 速度 
的 运行 时 间 为 O(n”)， 其 中 n 为 广播 台数 量 。 
下 面 来 看 看 解决 这 个 问题 的 代码 。 


很 快 。 在 这 个 例子 中 ,， 贪 栗 算 法 
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1. 准备 工作 
出 于 简化 考虑 ， 这 里 假设 要 覆盖 的 州 没有 那么 多 ， 广 播 台 也 没有 那么 多 。 
首先 ,创建 一 个 列表 ， 其 中 包含 要 覆盖 的 州 。 


states_needed = set(["mt", "wa", "or", "id", "nv", "ut", 
"ca"， "az"]) 用 你 传 入 一 个 数组 ， 它 被 转换 为 集合 


我 使 用 集合 来 表示 要 履 盖 的 州 。 集 合 类 似 于 列表 ， 只 是 同样 的 元 素 只 能 出 现 一 次 ， 即 集合 不 
能 包含 重复 的 元 素 。 例 如 ， 假 设 你 有 如 下 列表 。 

| 

并 且 你 将 其 转换 为 集合 。 


>>> set (arr) 
SEE (LL 2 “3]) 


在 这 个 集合 中 ，1 、2 和 3 都 只 出 现 一 次 。 


[4,2,2,3,3,3] 。 贡 奖 轧 入 全 小 (1,2,») 


和 集合 
还 需要 有 可 供 选 择 的 广播 台 清单 ， 我 选择 使 用 散 列表 来 表示 它 。 
stations = {} 
stations [kone™ = set (lid nv Vut™]) 
stations["ktwo"] = set(["wa", "id", "mt"]) 
estationst"kthree™l = set( [or "my "eal 
stations["kfour™] = set (lnmy., ET 
stations["kfive"] = set(["ca", "az"]) 


其 中 的 键 为 广播 台 的 名 称 , 值 为 广播 台 禾 盖 的 州 。 在 该 示例 中 , 广播 台 kone 宪 盖 了 爱 达 和 荷 州 、 
内 达 华 州 和 犹他 州 。 所 有 的 值 都 是 集合 。 你 马上 将 看 到 ， 使 用 集合 来 表示 一 切 可 以 简化 工作 。 

最 后 ， 需 要 使 用 一 个 集合 来 存储 最 终 选择 的 广播 台 。 

final_stations = set() 

2. 计算 答案 

接 下 来 需要 计算 要 使 用 哪些 广播 台 。 根 据 右边 的 示意 图 ， 
你 能 确定 应 使 用 哪些 广播 台 吗 ? 

正确 的 解 可 能 有 多 个 。 你 需要 遍历 所 有 的 广播 台 ， 从 中 选 
择 覆 盖 了 最 多 的 未 覆盖 州 的 广播 台 。 我 将 这 个 广播 台 存 储 在 


best_station 中 。 


best_station = None 
states_covered = set() 
for station, states_for_station in stations.items(): 
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states_covered 是 一 个 集合 ， 包 含 该 广播 台 覆 盖 的 所 有 未 履 盖 的 州 。foz 循 环 迭 代 每 个 广 
播 台 ， 并 确定 它 是 否 是 最 佳 的 广播 台 。 下 面 来 看 看 这 个 for 循 环 的 循环 体 。 


Covered = states_needed & states_for_station 

if len(covered) > len(states_covered): 也 …… 你 没 见 过 的 语法 ! 它 计 算 交 集 
best_station = station 
states_covered = covered 


其 中 有 一 行 代码 看 起 来 很 有 趣 。 

covered = states needed & states_for_station 
它 是 做 什么 的 呢 ? 

3. 集合 

假设 你 有 一 个 水 果 集 合 。 


条 某 纪 和 欧 下 
西红柿 


医 梨 
有 这 两 个 集合 后 ， 你 就 可 以 使 用 它们 来 做 些 有 趣 的 事 ' 


hl 
ul 
mi 
oO 


下 面 是 你 可 以 对 集合 执行 的 一 些 操作 。 


属 手 也 果 或 旋 委 的 既是 池 果 叉 是 许 委 的 
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属 手 路 办 但 不 局 手 芒 荣 网 
短 莱 

Sw 讨 移 上 二 
面 代 杭 
差 焦 


口 并 集 意 味 着 将 集合 合 3 
口 交集 意味 着 找 出 两 个 集合 中 都 有 的 元 素 ( 在 这 里 ， 只 有 西红柿 符合 条 件 )。 
口 差 集 意味 着 将 从 一 个 集合 中 剔除 出 现在 另 一 个 集合 中 的 元 素 。 


下 面 是 一 个 例子 。 

>>> fruits = set(["avocado", "tomato", "banana" ] ) 

>>> Vegetables = set(["beets", "carrots", "tomato"]) 

>>> fruits | Vegetables ee -并 集 

set(["avocado", "beets", "carrots", "tomato", "banana"]) 

>>> fruits & vegetables ee. -交集 

set(["tomato"]) 

>>> fruits - vegetables R&C 差 集 

set(["avocado", "banana"]) 

>>> vegetables - fruits ee 你 党 得 这 行 代码 是 做 什么 的 呢 ? 


这 里 小 结 一 下 : 

口 集合 类 似 于 列表 ， 只 是 不 能 包含 重复 的 元 素 ; 
口 你 可 执行 一 些 有 趣 的 集合 运算 ， 如 并 集 、 交 集 和 差 集 。 
4. 回 到 代码 

回 到 前 面 的 示例 。 

下 面 的 代码 计算 交集 。 

Covered = States_neededq & states_ for_station 


covered 是 一 个 集合 ， 包 含 同时 出 现在 states_needed 和 
states_for_station 中 的 州 ; 换言之 ,， 它 包含 当前 广播 台 宪 盖 的 
一 系列 还 未 覆盖 的 州 ! 接 下 来 ， 你 检查 该 广播 台 和 覆盖 的 州 是 否 比 


best_station 多 。 


if len(covered) > lenl(states_covered): 
best_station = station 
states_covered = covered 


如 果 是 这 样 的 ， 就 将 best_station 设 置 为 当前 广播 台 。 最 后 ， 你 在 for 循 环 结束 后 将 
pest_station 添 加 到 最 终 的 广播 台 列 表 中 。 
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final_stations.add (best_station) 


你 还 需 更 新 states_needed。 由 于 该 广播 台 有 覆盖 了 一 些 州 ， 因 此 不 用 再 覆盖 这 些 州 。 


states._needed -= states_covered 
你 不 断 地 循环 ， 直 到 states_needed 为 空 。 这 个 循环 的 完整 代码 如 下 。 


while states_needed: 
best_station = None 
States_covereQ = Set() 
for station, states in stations.items(): 
Covered = states_needed & states 
if len(covered) > len(states_ covered): 
best_station = station 
states_covered = covered 


states_needed -= states_covered 
final_stations.add (best_station) 


， 你 打印 final_stations， 结 果 类 似 于 下 面 这 样 。 


>>> print final_stations 
set(['ktwo', 'kthree', 'kone', 'kfive']) 


结果 符合 你 的 预期 吗 ? 选 择 的 广播 台 可 能 是 2、3、4 和 5， 而 不 是 预期 的 1 、2、3 和 5。 下 面 来 
比较 一 下 贪 梦 算法 和 精确 算法 的 运行 时 间 。 


Ounl) Om) 


广播 全 数量 靖 确 算法 会 颁 算 法 


练习 
下 面 各 种 算法 是 否 是 贪 焚 算 法 。 
8.3 快速 排序 。 


8.4 广度 优先 搜 索 。 
8.5” 狄 克 斯 特 拉 算 法 。 
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8.4 ”NP 完全 问题 


为 解决 集合 覆盖 问题 ， 你 必须 计算 每 个 可 能 的 集合 。 


集合 1 oe 集合 8 ee 集合 500 


他 需要 找 出 前 往 这 5 个 城市 的 最 短路 径 ， 为 此 ， 必 须 计 算 每 条 可 能 的 路 径 。 


12 细 1f3 > 


前 往 5 个 城市 时 ， 可 能 的 路 径 有 多 少 条 呢 ? 


8.4.1 旅行 商 问题 详解 
我 们 从 城市 数 较 少 的 情况 着 手 。 假 设 只 涉及 两 个 城市 ， 因 此 可 供 选 择 的 路 线 有 两 条 。 


从 三 林内 发 从 回 金 山 兴 发 


dg OY 


前 往 回 金山 前 往 轧 二 
这 两 条 路 线 相 同 还 是 不 同 


你 可 能 认为 这 两 条 路 线 相 同 ， 难 道 从 旧金山 到 马 林 的 距离 与 从 马 林 到 旧金山 的 距离 不 同 
吗 ? 不 一 定 。 有些 城 市 (如 旧金山 ) 有 很 多 单行 线 ， 因 此 你 无 法 按 原 路 返回 。 你 可 能 需要 离开 
原 路 行驶 一 两 英里 才能 找到 上 高 速 的 匣 道 。 因 此 ， 这 两 条 路 线 不 一 定 相 同 。 


你 可 能 心 存疑 惑 : 在 旅行 商 问题 中 ,必须 从 特定 的 城市 出 发 吗 ? 例如， 假设 我 是 旅行 商 。 我 
居住 在 旧金山 ， 需 要 前 往 其 他 4 个 城市 ， 因 此 我 将 从 旧金山 出 发 。 


但 有 时 候 , 不 确定 要 从 哪个 城市 出 发 。 假 设 联邦 快递 将 包 右 从 芝加哥 发 往 湾 区 , 包 右 将 通过 
航运 发 送 到 联邦 快递 在 湾 区 的 50 个 集散 点 之 一 , 再 装 上 经 过 不 同 配送 点 的 卡车 。 该 通过 航运 发 送 
到 哪个 集散 点 呢 ? 在 这 个 例子 中 , 起 点 就 是 未 知 的 。 因 此 , 你 需要 通过 计算 为 旅行 商 找 出 起 点 和 
最 佳 路 线 。 

在 这 两 种 情况 下 , 运行 时 间 是 相同 的 。 但 出 发 城市 未 定时 更 容易 处 理 , 因此 这 里 以 这 种 情况 为 例 。 

涉及 两 个 城市 时 ， 可 能 的 路 线 有 两 条 。 

1. 3 个 城市 

现在 假设 再 增加 一 个 城市 ， 可 能 的 路 线 有 多 少 条 呢 ? 

如 果 从 伯克利 出 发 ， 就 需 前 往 男 外 两 个 城市 。 


从 伯克利 出 必 
@) 10 和 和 伯克利 
= 


回 人 金山 回 金 山 
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从 每 个 城市 出 发 时 ， 都 有 两 条 不 同 的 路 线 ， 因 此 总 共有 6 条 路 线 。 


从 伯克利 罕 发 
@ 入 伯克利 | 9 伯克利 
下 和 和 可 G) 包 术 
国 圭 
回 人 金山 
回答 山 亲人 金山 
EN WE 
5 
回 人 金山 回 人 金山 
因此 涉及 3 个 城市 时 ， 可 能 的 路 线 有 6 条 。 
2. 4 个 城市 
我 们 再 增加 一 个 城市 一 一 弗 里 蒙特 。 现 在 假设 从 弗 里 蒙特 出 发 。 
从 弗 里 蒙特 生发 
| Nao 


伯克利 
伯克利 
入 夺 利加 ， 伯克利 伯克利 
回 人 金山 
弗 里 蒙特 


费 里 蛇 特 费 里 蒙特 


… 如 果 首 先前 往 回 金山 


马 
”A 
伯克利 人 伯克利 
回 人 金山 
弗 里 蒙特 


弗 里 党 特 
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从 弗 里 蒙特 出 发 时 ， 有 6 条 可 能 的 路 线 。 这 些 路 线 与 前 面具 有 3 个 城市 时 计算 的 6 条 路 线 很 像 ， 
只 是 现在 所 有 的 路 线 都 多 了 一 个 城市 一 一 弗 里 蒙特 ! 这 里 有 一 个 规律 。 假 设 有 4 个 城市 ， 你 选择 
一 个 出 发 城市 一 一 弗 里 蒙特 后 , 还 余下 3 个 城市 。 而 你 知道 ,涉及 3 个 城市 时 ,可 能 的 路 线 有 6 条 。 
从 弗 里 蒙特 出 发 时 ， 有 6 条 可 能 的 路 线 ， 但 还 可 以 从 其 他 任何 一 个 城市 出 发 。 


从 轧 村 出 次 从 回 金 山水 发 


= 消 6 雁 可 能 的 政 钱 王 
= 渍 6 夺 可 能 购 路 线 三 
从 伯克利 宙 发 
= 省 6 系 可 能 钨 牙 饭 二 


可 能 的 出 发 城市 有 4 个 , 从 每 个 城市 出 发 时 都 有 6 条 可 能 的 路 线 , 因此 可 能 的 路 线 有 4 x 6=24 条 。 
你 看 出 规律 了 吗 ? 每 增加 一 个 城市 ， 需 要 计算 的 路 线 数 都 将 增加 。 


减 市 下 
1 
和 , 训 1 姑 可 能 的 路 人 绕 =2 守 可 修 册 路 伐 
YY 二 2 水 可 能 的 类 恬 尖 市 x 每 个 兴安 沽 市 1 舍 可 侯 的 下 人 ge 
3 一 3 可 能 友 冯 居 表 市 x 条 个 灿 发 市 2 奈 可 能 的 引线 -5 村 可 儿 
一 > 


找 仁 坊 路 贷 
5 5 不 可 能 的 宇 发 坡 市 x 荨 个 守 发 城市 24 各 可 侯 的 路线 = 120 夺 可 仇 的 路 钱 
一 > 


4 不 本 能 的 灿 发 城市 x 系 个 宙 发 城 市 6 每 可 能 的 路 绕 - 24 厅 可 能 的 路 屋 


涉及 6 个 城市 时 ， 可 能 的 路 线 有 多 少 条 呢 ? 如 果 你 说 720 条 ,， 那 就 对 了 。7 个 城市 为 53040 条 ，8 
个 城市 为 40 320 条 。 


这 被 称 为 阶乘 函数 (factorial function ) ， 第 3 章 介 绍 过 。5! = 120。 假设 有 10 个 城市 ， 可 能 的 
路 线 有 多 少 条 呢 ?”10!=3 628 800。 换 句 话 说， 涉及 10 个 城市 时 ， 需 要 计算 的 可 能 路 线 超过 300 万 
条 。 正 如 你 看 到 的 ， 可 能 的 路 线 数 增加 得 非常 快 ! 因此 ， 如 果 涉 及 的 城市 很 多 ， 根 本 就 无 法 找 出 
旅行 商 问题 的 正确 解 。 


全 


旅行 商 问题 和 集合 覆盖 问题 有 一 些 共同 之 处 
的 那个 。 这 两 个 问题 都 属于 NP 完 全 问题 。 


: 你 需要 计算 所 有 的 解 ， 并 从 中 选 出 最 小 /最 短 
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近似 求解 
对 旅行 商 问题 来 说 , 什么 样 的 近似 算法 不 错 呢 ? 能 找到 较 短 路 径 的 算法 就 算 不 错 。 在 继续 
往 下 阅读 前 ， 看 看 你 能 设计 出 这 样 的 算法 吗 ? 
我 会 采取 这 样 的 做 法 : 随便 选择 出 发 城市 ， 然 后 每 次 选择 要 去 的 下 一 个 城市 时 ， 都 选择 还 
没 去 的 最 近 的 城市 。 假 设 旅行 商 从 马 林 出 发 。 


次 海 何 生 村 


总 旅程 为 71 英 里 。 这 条 路 径 可 能 不 是 最 短 的 ， 但 也 相当 短 了 。 


NP 完 全 问题 的 简单 定义 是 ， 以 难 解 著称 的 问题 ， 如 旅行 商 问题 和 集合 覆盖 问题 。 很 多 非常 
聪明 的 人 都 认为 ， 根 本 不 可 能 编写 出 可 快速 解决 这 些 问 题 的 算法 。 


8.4.2 ”如 何 识别 NP 完全 问题 


Jonah 正 为 其 虚构 的 橄榄 球 队 挑选 队员 。 他 列 了 一 个 清单 ， 指 出 了 对 球 
队 的 要 求 : 优秀 的 四 分 卫 ， 优 秀 的 跑 卫 ， 擅 长 雨中 作战 ， 以 及 能 承受 压力 
等 。 他 有 一 个 候选 球员 和 名单， 其 中 每 个 球员 都 满足 某 些 要 求 。 


MATT FORTE | 网 


BpENDW MNRSHALL | 外 拉 拖 / 亿 东 未 朗 左 力 


AARoN RoDGERS w52) 鳞 金 系 受 压力 
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Jonah 需 要 组 建 一 个 满足 所 有 这 些 要 求 的 球 队 ， 可 名 额 有 限 。 等 等 ，Jonah 突 然 间 意 识 到 ， 这 
不 就 是 一 个 集合 覆盖 问题 吗 ! 


Jonah 可 使 用 前 面 介绍 的 近似 算法 来 组 建 球 队 。 

(1) 找 出 符合 最 多 要 求 的 球员 。 

(2) 不 断 重复 这 个 过 程 ， 直 到 球 队 满 足 要 求 (或 球 队 名 和 额 已 满 )。 

NP 完全 问题 无 处 不 在 ! 如 果 能 够 判断 出 要 解决 的 问题 属于 NP 完全 问题 就 好 了 ， 这 样 就 不 用 
去 寻找 完美 的 解决 方案 ， 而 是 使 用 近似 算法 即 可 。 但 要 判断 问题 是 不 是 NP 完全 问题 很 难 ， 易 于 
解决 的 问题 和 NP 完全 问题 的 差别 通常 很 小 。 例 如 ， 前 一 章 深入 讨论 了 最 短路 径 ， 你 知道 如 何 找 
出 从 A 点 到 B 点 的 最 短路 径 。 


七 一 


3SC 路 公安 车 


但 如 果 要 找 出 经 由 指定 儿 个 点 的 的 最 短路 径 ， 就 是 旅行 商 问题 一 一 NP 完全 问题 。 简 言 之 ， 
没 办 法 判断 问题 是 不 是 NP 完全 问题 ,但 还 是 有 一 些 蛛 丝 马 迹 可 循 的 。 


口 元 素 较 少时 算法 的 运行 速度 非常 快 ， 但 随 着 元 素数 量 的 增加 ， 速 度 会 变 得 非常 慢 。 

口 涉及 “所 有 组 合 ” 的 问题 通常 是 NP 完全 问题 。 

口 不 能 将 问题 分 成 小 问题 ， 必 须 考虑 各 种 可 能 的 情况 。 这 可 能 是 NP 完全 问题 。 

口 如 果 问 题 涉 及 序列 ( 如 旅行 商 问题 中 的 城市 序列 ) 且 难 以 解决 , 它 可 能 就 是 NP 完全 问题 。 
口 如 果 问 题 涉 及 集合 ( 如 广播 台 集 合 ) 且 难 以 解决 ， 它 可 能 就 是 NP 完全 问题 。 

口 如 果 问 题 可 转换 为 集合 覆盖 问题 或 旅行 商 问题 ， 那 它 肯定 是 NP 完全 问题 。 
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8.6 ”有 个 邮递 员 负 责 给 20 个 家 庭 送信 ， 需 要 找 出 经 过 这 20 个 家 庭 的 最 短路 径 。 请 问 这 是 一 


个 NP 完全 问题 吗 ? 


8.7 在 一 堆 人 中 找 出 最 大 的 朋友 圈 ( 即 其 中 任何 两 个 人 都 相识 ) 是 NP 完全 问题 吗 ? 


8.8 ”你 要 制作 美国 地 图 ， 需 要 用 不 同 的 颜色 标 出 相 邻 的 州 。 为 此 ， 你 需要 确定 最 少 需要 使 
用 多 少 种 颜色 ， 才 能 确保 任何 两 个 相 邻 州 的 颜色 都 不 同 。 请 问 这 是 NP 完全 问题 吗 ? 


8.5 小结 


口 贪 焚 算 法 寻找 局 部 最 优 解 ， 企 图 以 这 种 方式 获得 全 局 最 优 解 。 
口 对 于 NP 完全 问题 ， 还 没有 找到 快速 解决 方案 。 


口 面临 NP 完 全 问题 时 ， 最 佳 的 做 法 是 使 用 近似 算法 。 


口 贪 焚 算 法 易于 实现 、 运 行 速度 快 ， 


是 不 错 的 近似 算法 。 


9.1 


4 磅 东西 的 背 


第 9 章 
动态 规划 


口 学 习 动 态 规划 ， 这 是 一 种 解决 棘手 问题 的 方法 ， 它 将 问题 分 成 小 问题 ， 并 先 着 手 解决 这 
些小 问题 。 
口 学 习 如 何 设计 问题 的 动态 规划 解决 方案 。 


背包 问题 
我 们 再 来 看 看 第 8 章 的 背包 问题 。 假 设 你 是 个 小 偷 , 背 着 一 个 可 装 


你 可 盗 穷 的 商品 有 如 下 3 件 。 


一 


pan 
D0 
备 响 a 
笔记 车 电 脑 
ee 2000 及 先 1500 及 先 
了 磅 1 磅 


为 了 让 盗窃 的 商品 价值 最 高 ， 你 该 选择 哪些 商品 ? 


9.1.1 简单 算法 
最 简单 的 算法 如 下 : 尝试 各 种 可 能 的 商品 组 合 ， 并 找 出 价值 最 高 的 组 合 。 


3000 系 多 2000 有 系 抑 
V 
oe x x 
es 去 他 、 备 响 
| 
关 车 叉 点 不 下 


这 样 可 行 ， 但 速度 非常 慢 。 在 有 3 件 商 品 的 情况 下 ， 你 需要 计算 8 个 不 同 的 集合 ;有 4 件 商品 
时 ,你 需要 计算 16 个 集合 。 每 增加 一 件 商 品 , 需要 计算 的 集合 数 都 将 翻 倍 ! 这 种 算法 的 运行 时 间 
为 0(2”)， 真 的 是 慢 如 蜗牛 。 


3 件 商 贱 4 件 商 蝶 5 件 痪 品 
G 个 可 能 的 集合 
16 个 可 能 的 靠 合 
4 
让 
太史 4、 
jo 32 个 可 能 的 集合 
Wp 


只 要 商品 数量 多 到 一 定 程 度 ， 这 种 算法 就 行 不 通 。 在 第 8 章 ， 你 学 习 了 如 何 找到 近似 解 ， 这 
接近 最 优 解 ， 但 可 能 不 是 最 优 解 。 
那么 如 何 找到 最 优 解 呢 ? 
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9.1.2 ”动态 规划 
答案 是 使 用 动态 规划 ! 下 面 来 看 看 动态 规划 算法 的 工作 原理 


。 动 态 规划 先 解决 子 问题 ， 再 逐 


步 解 决 大 问题 。 
对 于 背包 问题 ， 你 先 解决 小 背包 ( 子 背 包 ) 问题 ， 再 逐步 解决 原来 的 问题 。 


全 


你 没有 立即 搞 懂 , 也 不 用 担心 , 我 们 将 研究 很 多 示例 。 


动态 规划 是 一 个 难以 理解 的 概念 ,如 一 

先 来 演示 这 种 算法 的 执行 过 程 。 看 过 执行 过 程 后 , 你 心里 将 有 一 大 堆 问 题 ! 我 将 竭尽 所 能 解 
答 这 些 问 题 。 

每 个 动态 规划 算法 都 从 一 个 网 格 开始 ， 背 包 问题 的 网 格 如 下 。 


各 列 为 不 同 容量 (1 ~4 磅 ) 的 背包 


友人 行为 可 


1 二 他 

务 -gh 

选择 的 商品 
笔记 夺 哆 脑 


网 格 的 各 行为 商品 ， 各 列 为 不 同 容量 (1 一 4 磅 ) 的 背包 。 所 有 这 些 列 你 都 需要 ， 因 为 它们 将 
帮助 你 计算 子 背包 的 价值 。 

网 格 最 初 是 空 的 。 你 将 填充 其 中 的 每 个 单元 格 ， 网 格 填 满 后 ， 就 找到 了 问题 的 答案 ! 你 一 定 
要 跟着 做 。 请 你 创建 网 格 ， 我 们 一 起 来 填 满 它 。 

1. 吉他 行 

后 面 将 列 出 计算 这 个 网 格 中 单元 格 值 的 公式 。 我 们 先 来 一 步 一 步 做 。 首 先 来 看 第 一 行 。 


这 是 吉他 行 ， 意味 着 你 将 尝试 将 吉他 装 入 背包 。 在 每 个 单元 格 ， 都 需要 做 一 个 简单 的 决定 : 
偷 不 偷 吉他 ? 别 忘 了 ， 你 要 找 出 一 个 价值 最 高 的 商品 集合 。 
第 一 个 单元 格 表示 背包 的 容量 为 1 磅 。 吉 他 的 重量 也 是 1 磅 ,这 意味 着 它 能 装 入 背包 ! 
个 单元 格 包含 吉他 ， 价 值 为 1500 美 元 。 

下 面 来 开始 填充 网 格 。 


| 


此 这 


来 看 下 一 个 单元 格 。 这 个 单元 格 表示 背包 的 容量 为 2 磅 ， 完 全 能 够 法 下 吉他 ! 


这 行 的 其 他 单元 格 也 一 样 。 别 忘 了 ,这 是 第 一 行 , 只 有 吉他 可 供 你 选择 。 换 言 之 , 你 假装 现 
在 还 没 法 盗窃 其 他 两 件 商 品 。 
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$soo| $1500 $\500 


此 时 你 很 可 能 心 存疑 惑 ， 原来 的 问题 说 的 是 4 磅 的 背包 ， 我 们 为 何 要 考虑 容量 为 1 磅 、2 磅 等 
的 背包 呢 ?” 前 面 说 过 , 动态 规划 从 小 问题 着手 , 逐步 解决 大 问题 。 这 里 解决 的 子 问 题 将 帮助 你 解 
决 大 问题 。 请 接着 往 下 读 ， 稍 后 你 就 会 明白 的 。 


此 时 网 格 应 类 似 于 下 面 这 样 。 


$\500 | +1500 


$s5So0 书 \500 
G G 


别 忘 了 ,你 要 做 的 是 让 背包 中 商品 的 价值 最 大 。 这 行 表示 的 是 当前 的 最 大 价值 。 它 指出 ,如 
果 你 有 一 个 容量 4 磅 的 背包 ， 可 在 其 中 装 入 的 商品 的 最 大 价值 为 1500 美 元 。 


当前 ， 为 了 让 和 营 
包 牢 离 品 的 价值 
最 高 ， 洒 人 答应 冀 
狠 价 值 1500 爱 先 
的 二 他 


你 知道 这 不 是 最 终 的 解 。 随 着 算法 往 下 执行 ， 你 将 逐步 修改 最 大 价值 。 

2. 音响 行 

我 们 来 填充 下 一 行 一 一 音响 行 。 你 现在 出 于 第 二 行 ， 可 偷 的 商品 有 吉他 和 音响 。 在 每 一 行 ， 
可 偷 的 商品 都 为 当前 行 的 商品 以 及 之 前 各 行 的 商品 。 因 此 ， 当 前 你 还 不 能 偷 笔记 本 电脑 ， 而 只 能 
偷 音 响 和 吉他 。 我 们 先 来 看 第 一 个 单元 格 ， 它 表示 容量 为 1 磅 的 背包 。 在 此 之 前 ,可 装 和 1 磅 背包 
的 商品 的 最 大 价值 为 1500 美 元 。 


该 不 该 偷 音响 呢 ? 


背包 的 容量 为 1 磅 ， 能 装 下 音响 吗 ? 音响 太 重 了 ， 装 不 下 ! 由 于 容量 1 磅 的 背包 装 不 下 音响 ， 
因此 最 大 价值 依然 是 1500 美 元 。 


LL 党 


本 LSoD 
G 


接 下 来 的 两 个 单元 格 的 情况 与 此 相同 。 在 这 些 单元 格 中 ,背包 的 容量 分 别 为 2 磅 和 3 磅 ， 而 以 
前 的 最 大 价值 为 1500 美 元 。 


$I500 |$(s500 |4!500 
G @ G 


证 他 (9) 
oo |#1500 |$1500 
襄 响 i co 


背包 装 不 下 音响 ， 因 此 最 大 价值 保持 不 变 。 


4 磅 呢 ? 终于 能 够 装 下 音响 了 ! 原来 的 最 大 价值 为 1500 美 元 ,但 如 果 在 背包 中 装 
他 ， 价 值 将 为 3000 美 元 ! 因此 还 是 偷 音响 吧 


Cs 
东 村 
区 
el 

下 过 亚 


O 
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音响 (S) 


你 更 新 了 最 大 价值 ! 如 果 背 包 的 容量 为 4 磅 ， 就 能 装 入 价值 至 少 3000 美 元 的 商品 。 在 这 个 网 
格 中 ， 你 逐步 地 更 新 最 大 价值 。 


3. 笔记 本 电脑 行 
下 面 以 同样 的 方式 处 理 笔记 本 电脑 。 笔 记 本 电脑 重 3 磅 ， 没 法 将 其 装 人 容量 为 1 磅 或 2 磅 的 青 
包 ， 因 此 前 两 个 单元 格 的 最 大 价值 还 是 1500 美 元 。 


吉他 (9) 


对 于 容量 为 3 磅 的 背包 ， 原 来 的 最 大 价值 为 1300 美 元 ， 但 现在 你 可 选择 盗窃 价值 2000 美 元 的 
笔记 本 电脑 而 不 是 吉他 ， 这 样 新 的 最 大 价值 将 为 2000 美 元 ! 


Oo 
C 


去 他 (G) C 了 
音响 (S) 汪 尘 加 


守 记 谨 电 肪 () 四 国 攻 本 
对 于 容量 为 4 磅 的 背包 ， 情 况 很 有 趣 。 这 是 非常 重要 的 部 分 。 当 前 的 最 大 价值 为 3000 美 元 ， 
你 可 不 偷 音响 ， 而 偷 笔记 本 电脑 ， 但 它 只 值 2000 美 元 。 


车 3ooo vs $2000 
备 响 笔记 车 电脑 


价值 没有 原来 高 。 但 等 一 等 ， 笔 记 本 电脑 的 重量 只 有 3 磅 ， 背 包 还 有 1 磅 的 容量 没 用 ! 


$3000 vs/$2000 十 ?92 


光合 
老人 先 记 这 电脑 余下 的 1 磅 容量 


在 1 磅 的 容量 中 ， 可 装 和 的 商品 的 最 大 价值 是 多 少 呢 ? 你 之 前 计算 过 。 


1 芝 洁 这 


$\co0 |$\s00 |$lsoo | $lsoo 
世 G G G 
soo | See | 4seo | $3000 
@& & G S 


| 
soo 片 2OOQ- 
G Mh 


1 疹 安 量 。 字 
上 鉴 六 商品 的 
最 大 价值 #500 


G 


根据 之 前 计算 的 最 大 价值 可 知 ， 在 1 磅 的 容量 中 可 装 和 吉他， 价值 1500 美 元 。 因 此 ， 你 需要 
做 如 下 比较 。 


$3000 vs ($2000 十 $15oo 


二 5 吉他 
音响 笔记 桔 史 脑 
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你 可 能 始终 心 存疑 惑 : 为 何 计算 小 背包 可 装 和 人 的 商品 的 最 大 价值 呢 ? 但 愿 你 现在 明白 了 其 中 
的 原因 ! 余下 了 空间 时 ,你 可 根据 这 些 子 问题 的 答案 来 确定 余下 的 空间 可 装 和 人 哪些 商品 。 笔 记 本 
电脑 和 吉他 的 总 价值 为 3500 美 元 ， 因 此 偷 它们 是 更 好 的 选择 。 


最 终 的 网 格 类 似 于 下 面 这 样 。 


~ 
八 ) 
WJ 


去 化 (0) lsroo |4)5oD | 忆 Isoo | $lsoo 
Gl ,SG & be 
cj sl 5s 


书 lsoo |$1500 |$2000 #3500 
G G LiLs 
从 


最 低 答 大 


笔记 奔 电 脑 (人) 


答案 如 下 : 将 吉他 和 笔记 本 电脑 装 入 背包 时 价值 最 高 ， 为 3500 美 元 。 

你 可 能 认为 , 计算 最 后 一 个 单元 格 的 价值 时 , 我 使 用 了 不 同 的 公式 。 那 是 因为 填充 之 前 的 单 
元 格 时 ， 我 故意 避 开 了 一 些 复 杂 的 因素 。 其 实 ， 计 算 每 个 单元 格 的 价值 时 ， 使 用 的 公式 都 相同 。 
这 个 公式 如 下 。 


1. 上 一 个 单 移 格 的 值 ( 即 CELL Ci-DL] 的 值 ) 


5 
YY 两 着 中 入 
cerLUOTEi = te 
入 


CELLCG-TUL 一 当前 次 史 的 便 量 了 


你 可 以 使 用 这 个 公式 来 计算 每 个 单元 格 的 价值 , 最终 的 网 格 将 与 前 一 个 网 格 相同 。 现 在 你 明 
白 了 为 何 要 求解 子 问题 吧 ? 你 可 以 合并 两 个 子 问题 的 解 来 得 到 更 大 问题 的 解 。 
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你 可 能 还 是 觉得 这 像 是 变 魔 术 。 本 节 将 回答 一 些 常见 的 问题 。 


9.2.1 再 增加 一 件 商 品 将 如 何 呢 
假设 你 发 现 还 有 第 四 件 商品 可 偷 一 一 个 iPhonel 


1PHoNE 
此 时 需要 重新 执行 前 面 所 做 的 计算 吗 ? 不 需要 。 别 忘 了 ， 动 态 规划 2000 奚 移 
逐步 计算 最 大 价值 。 到 目前 为 止 ， 计 算出 的 最 大 价值 如 下 。 1 矿 


二 十- 这， 地 


地 ISO | 地 lg5oe | 韦 15o0 $l500 


二 他 (0G 
(9) 和 和 - Ee 
45Soo | 下 lsooe | 丰 15o2 $200D 
Ey eG G 6 


笔记 夺 哆 脑 (三 ) 


机 lsoe 市 l5eo | 地 2ooo | 机 350o 
Cr G L LG 


这 意味 着 背包 容量 为 4 磅 时 ， 你 最 多 可 偷 价值 3500 美 元 的 商品 。 但 这 是 以 前 的 情况 ， 下 面 再 


添加 表示 让 hone 的 行 。 


iPhone 


最 大 价值 可 能 发 生变 化 ! 请 尝试 填充 这 个 新 增 的 行 ， 再 接着 往 下 读 。 


我 们 从 第 一 个 单元 格 开始 。iPhone 可 装 入 容量 为 1 磅 的 背包 。 之 前 的 最 大 价值 为 1500 美 元 ， 
但 iPhone 价值 2000 美 元 ， 因 此 该 偷 iPhone 而 不 是 吉他 。 
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笔记 夺 史 脑 (三 ) 


iphone (9) 


对 于 第 三 个 单元 格 ， 也 没有 比 装 入 iPhone 和 吉他 更 好 的 选择 了 。 


对 于 最 后 一 个 单元 格 ， 情 况 比较 有 趣 。 当 前 的 最 大 价值 为 3500 美 元 ， 但 你 可 偷 iPhone， 这 将 
余下 3 磅 的 容量 。 


$3500 val $2000 十 ?ep? 


1PHONPE 
了 磅 容量 的 最 大 从 
导 记 夺 电 脑 1 十 他 Wd 


3 磅 容量 的 最 大 价值 为 2000 美 元 ! 再 加 上 iPhone 价 值 2000 美 元 ， 总 价值 为 4000 美 元 。 新 的 最 
大 价值 诞生 了 ! 


最 终 的 网 格 如 下 。 
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大 价值 有 可 


竹下 过 对 最 
侯 下 诈 吗 ? 


请 找 出 这 个 问题 的 答案 ， 再 接着 往 下 读 。 
答案 : 不 可 能 。 每 次 迭代 时 ， 你 都 存储 当前 的 最 大 价值 。 最 大 价值 不 可 能 比 以 前 低 ! 
练习 


9.1 假设 你 还 可 偷 另 外 一 件 商品 一 一 MP3 播 放 器 ， 它 重 1 磅 ， 价 值 1000 美 元 。 你 要 偷 吗 ? 


9.2.2 行 的 排列 顺序 发 生变 化 时 结果 将 如 何 


答案 会 随 之 变化 吗 ” 假设 你 按 如 下 顺序 填充 各 行 : 音响 、 笔 记 本 电脑 、 吉 他 。 网 格 将 会 是 什 
么 样 的 ? 请 自己 动手 填充 这 个 网 格 ， 再 接着 往 下 读 。 


网 打包 于 下 面 这 和 
人 
本: 
| 
本 >ooo 
回回 中 世 
S 
& G L| Lg 


备 咯 (S) 


笔记 夺 史 脑 (三 ) 


吉他 (9) 
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答案 没有 变化 。 也 就 是 说 ， 各 行 的 排列 顺序 无 关 紧 要 。 


9.2.3 ”可 以 逐 列 而 不 是 逐 行 填充 网 格 吗 
自己 动手 试 试 吧 ! 就 这 个 问题 而 言 ， 这 没有 任何 影响 ， 但 对 于 其 他 问题 ， 可 能 有 影响 。 


9.2.4 增加 一 件 更 小 的 商品 将 如 何 呢 

假设 你 还 可 以 偷 一 条 项 链 ， 它 重 0.5 磅 ， 价 值 1000 美 元 。 前 面 的 网 格 都 假设 所 有 商品 的 重量 
为 整数 ， 但 现在 你 决定 把 项 链 给 偷 了 ， 因 此 余下 的 容量 为 3.5 磅 。 在 3.5 磅 的 容量 中 ， 可 装 和 的 商 
品 的 最 大 价值 是 多 少 呢 ? 不 知道 ! 因为 你 只 计算 了 容量 为 1] 磅 、2 磅 、3 磅 和 4 磅 的 背包 可 装 下 的 商 
品 的 最 大 价值 。 现 在 ， 你 需要 知道 容量 为 3.5 磅 的 背包 可 装 下 的 商品 的 最 大 价值 。 

由 于 项 链 的 加 入 ， 你 需要 考虑 的 粒度 更 细 ， 因 此 必须 调整 网 格 。 


~ 


笔记 桔 史 脑 


项 链 | 


| 加 


9.2.5 可 以 偷 商品 的 一 部 分 吗 


假设 你 在 杂货 店 行 甸 ,可 偷 成 袋 的 扁豆 和 大 米 , 但 如 果 整 伐 凌 不 下 ,可 打开 包 洲 ,再 将 背 
倒 满 。 在 这 种 情况 下 ,不 再 是 要 么 偷 要 么 不 偷 ,而 是 可 偷 商品 的 一 部 分 。 如 何 使 用 动态 规划 来 处 
理 这 种 情形 呢 ? 

答案 是 没 法 处 理 。 使 用 动态 规划 时 ， 要 么 考虑 拿 走 整 件 商品 ， 要 么 考虑 不 拿 ， 而 没 法 判断 该 
不 该 拿 走 商品 的 一 部 分 。 

但 使 用 贪 梦 算 法 可 轻松 地 处 理 这 种 情况 ! 首先 , 尽 可 能 多 地 拿 价值 最 高 的 商品 ; 如 果 拿 光 了 ， 
再 尽 可 能 多 地 拿 价值 次 高 的 商品 ， 以 此 类 推 。 


例如 ， 假 设 有 如 下 商品 可 供 选 择 。 
A 


CO 


一 一 一 


其 去 本 五 大 替 
短 磅 6 用 元 篆 磅 3 么 抑 每 磅 2 用 元 
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葵 麦 比 其 他 商品 都 值钱 , 因此 要 尽量 往 背 包 中 闭 蔡 麦 ! 如 果 能 够 在 
背包 中 法 满 葵 麦 ， 结 果 就 是 最 佳 的 。 

如 果 获 麦 装 完 后 背包 还 没 满 ， 就 接着 装 和 下 一 种 最 值钱 的 商品 ， 
以 此 类 推 。 


9.2.6 ”旅游 行程 最 优化 
假设 你 要 去 伦敦 度假 , 假期 两 天 , 但 你 想 去 游览 的 地 方 很 多 。 你 没 法 前 往 每 个 地 方 游 览 ， 因 
此 你 列 个 单子 。 


和 名胜 时 间 评分 
诚 斯 其 斯 特 教 党 05 天 
环球 剧 协 05 天 
英国 国家 及 本 人 馆 1 天 2 
大 美博 物 户 2 天 2 
季 保 多 大 教堂 05 天 S 


对 于 想 去 游览 的 每 个 名 胜 ， 都 列 出 所 需 的 时 间 以 及 你 有 多 想 去 看 看 。 根 据 这 个 清单 ， 你 能 确 
定 该 去 游览 哪些 名 胜 吗 ? 

这 也 是 一 个 背包 问题 ! 但 约束 条 件 不 是 背包 的 容量 , 而 是 有 限 的 时 间 ; 不 是 决定 该 装 和 人 哪些 
商品 ， 而 是 决定 该 去 游览 哪些 名 胜 。 请 根据 这 个 清单 绘制 动态 规划 网 格 ， 再 接着 往 下 读 。 

网 格 类 似 于 下 面 这 样 。 


万 斯 孝 斯 特 教 党 
环球 剧场 
英国 国家 肝 本 人 馆 
大 茵 博物 馆 
至 保罗 大 教堂 


你 画 对 了 吗 ? 请 填充 这 个 网 格 ， 决 定 该 游览 哪些 名 胜 。 答 案 如 下 。 
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万 斯 苍 斯 特 教 党 (WW ) 
环球 剧场 (0G ) 
英国 国家 用 本 馆 (人 N) 
大 喘 骨 物 馆 (与 ) 


生 仍 罗 大 教堂 (S ) 


9.2.7 ”处 理 相互 依赖 的 情况 
假设 你 还 想 去 巴黎 ， 因 此 在 前 述 清单 中 又 添加 了 几 项 。 


埃 系 汞 多 声 1.5 天 ® 
卢湾 富 1.5 天 9 
巴黎 到 及 谋 1.5 天 二 


去 这 些 地 方 游览 需要 很 长 时 间 ， 因 为 你 先 得 从 伦敦 前 往 巴 黎 ， 这 需要 半天 时 间 。 如 果 这 3 个 
地 方 都 去 玩 ， 是 不 是 要 4.5 天 呢 ? 

不 是 的 ,因为 不 是 去 每 个 地 方 都 得 先 从 伦敦 到 巴黎 。 到 达 巴 黎 后 ， 每 个 地 方 都 只 需 1 天 时 间 。 
因此 玩 这 3 个 地 方 需要 的 总 时 间 为 3.5 天 (半天 从 伦敦 到 巴黎 ， 每 个 地 方 1 天 )， 而 不 是 4.5 天 。 

将 埃菲尔 铁塔 加 入 “背包 ”后 ， 卢 浮 宫 将 更 “便宜 ”: 只 要 1 天 时 间 ， 而 不 是 1.5 天 。 如 何 使 
用 动态 规划 对 这 种 情况 建 模 呢 ? 

没 办 法 建 模 。 动 态 规划 功能 强大 ， 它 能 够 解决 子 问题 并 使 用 这 些 答 
每 个 子 问题 都 是 离散 的 ， 即 不 依赖 于 其 他 子 问 题 时 ， 动 态 规划 才 管 用 。 
法 解决 不 了 去 巴黎 玩 的 问题 。 


来 解决 大 问题 。 但 仅 当 
意味 着 使 用 动态 规划 算 


宋 


9.2.8 计算 最 终 的 解 时 会 涉及 两 个 以 上 的 子 背 包 吗 
为 获得 前 述 背 包 问 题 的 最 优 解 ， 可 能 需要 偷 两 件 以 上 的 商品 。 但 根据 动态 规划 算法 的 设计 , 最 
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多 只 需 合并 两 个 子 背 包 ， 即 根本 不 会 涉及 两 个 以 上 的 子 背 包 。 不 过 这 些 子 背包 可 能 义 包含 子 背包 。 


A 
DO 


9.2.9 最 优 解 可 能 导致 背包 没 装 满 吗 有 
完全 可 能 。 假 设 你 还 可 以 偷 一 颗 钻石 。 中 一 


这 颗 钻石 非常 大 , 重 达 3.5 磅 ,价值 100 万 美元 ， 比 其 他 商品 都 值钱 得 多 。 
你 绝对 应 该 把 它 给 偷 了 ! 但 当 你 这 样 做 时 , 余下 的 容量 只 有 0.5 磅 ， 别 的 什么 


都 装 不 下 。 i 
100 万 系 抑 
练习 了 5 磅 


9.2 假设 你 要 去 野营 。 你 有 一 个 容量 为 6 磅 的 背包 ， 需 要 决定 该 携带 下 面 的 哪些 东西 。 其 中 
每 样 东西 都 有 相应 的 价值 ， 价 值 越 大 意味 着 越 重要 

口水 〈 重 3 磅 ， 价 值 10 ); 

口 书 〈 重 1 磅 ， 价 值 3 ) 

口 食物 ( 重 2 磅 ， 价值 9 ); 

口 夹克 ( 重 2 磅 ,价值 5 ); 

口 相机 ( 重 1 磅 ,价值 6 )。 


请 问 携带 哪些 东西 时 价值 最 高 ? 


9.3 最 长 公共 子 串 


通过 前 面 的 动态 规划 问题 ， 你 得 到 了 哪些 启示 呢 ? 


口 动态 规划 可 帮助 你 在 给 定 约束 条 件 下 找到 最 优 解 。 在 背包 问题 中 ， 你 必 
须 在 背包 容量 给 定 的 情况 下 ， 偷 到 价值 最 高 的 商品 。 
D 在 问题 可 分 解 为 彼此 独立 且 离 散 的 子 问题 时 , 就 可 使 用 动态 规划 来 解决 。 


要 设计 出 动态 规划 解决 方案 可 能 很 难 ， 这 正 是 本 节 要 介绍 的 。 下 面 是 一 些 通 用 的 小 贴 士 。 
口 每 种 动态 规划 解决 方案 都 涉及 网 格 。 
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口 单元 格 中 的 值 通常 就 是 你 要 优化 的 值 。 在 前 面 的 背包 问题 中 ， 单 元 格 的 值 为 商品 的 价值 。 
口 每 个 单元 格 都 是 一 个 子 问题 ， 因 此 你 应 考虑 如 何 将 问题 分 成 子 问题 ， 这 有 助 于 你 找 出 网 
格 的 坐标 轴 。 


下 面 再 来 看 一 个 例子 。 假 设 你 管理 着 网 站 dictionary.com。 用 户 在 该 
网 站 输入 单词 时 ， 你 需要 给 出 其 定义 。 

但 如 果 用 户 拼 错 了 ,你 必须 猜测 他 原本 要 输入 的 是 什么 单词 ,例如 ， 
Alex 想 查 单词 fsh， 但 不 小 心 输入 了 hish。 在 你 的 字典 中 ， 根 本 就 没有 
这 样 的 单词 ， 但 有 几 个 类 似 的 单词 。 

在 这 个 例子 中 ， 只 有 两 个 类 似 的 单词 ， 真 是 太 小 儿科 了 。 实 际 上 ， 
类 似 的 单词 很 可 能 有 数 千 个 。 

Alex 输 入 了 hish， 那 他 原本 要 输入 的 是 fish 还 是 vista 呢 ? 


四 FlsH 美 侯 的 平 词 : 


-FISH 

9.3.1 绘制 网 格 - NiSTA 

用 于 解决 这 个 问题 的 网 格 是 什么 样 的 呢 ? 要 确定 这 一 点 ， 你 得 回答 如 下 问题 。 
口 单元 格 中 的 值 是 什么 ? 
口 如 何 将 这 个 问题 划分 为 子 问题 ? 
口 网 格 的 坐标 轴 是 什么 ? 

在 动态 规划 中 , 你 要 将 某 个 指标 最 大 化 。 在 这 个 例子 中 , 你 要 找 出 两 个 单词 的 最 长 公共 子 串 。 
hish 和 fish 都 包含 的 最 长 子 串 是 什么 呢 ? hish 和 vista 呢 ? 这 就 是 你 要 计算 的 值 。 
别 忘 了 ， 单 元 格 中 的 值 通常 就 是 你 要 优化 的 值 。 在 这 个 例子 中 ,这 很 可 能 是 一 个 数字 : 两 个 
字符 串 都 包含 的 最 长 子 串 的 长 度 。 

如 何 将 这 个 问题 划分 为 子 问题 呢 ? 你 可 能 需要 比较 子 串 : 不 是 比较 hish 和 fish, 而 是 先 比 较 his 
和 fis。 每 个 单元 格 都 将 包含 这 两 个 子 串 的 最 长 公共 子 串 的 长 度 。 这 也 给 你 提供 了 线索 ,让 你 觉得 
坐标 轴 很 可 能 是 这 两 个 单词 。 因 此 ， 网 格 可 能 类 似 于 下 面 这 样 。 


H \ 5 HhH 


工 小 
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如 果 这 在 你 看 来 犹如 巫 术 ,也 不 用 担心 。 这些 内 容 很 难 懂 , 但 这 也 正 是 我 到 现在 才 介绍 它们 
的 原因 ! 本 章 后 面 有 一 个 练习 ， 到 时 你 可 以 自己 动手 来 进行 动态 规划 。 


9.3.2 ”填充 网 格 
现在 ,你 很 清楚 网 格 应 是 什么 样 的 。 填 充 该 网 格 的 每 个 单元 格 时 , 该 使 用 什么 样 的 公式 呢 ? 
由 于 你 已 经 知道 答案 一 一 hish 和 fish 的 最 长 公共 子 串 为 ish， 因 此 可 以 作 点 次 。 


即便 如 此 ， 你 还 是 不 能 确定 该 使 用 什么 样 的 公式 。 计 算 机 科学 家 有 时 会 开玩笑 说 , 那 就 使 用 
费 曼 算法 (Feynman algorithm )。 这 个 算法 是 以 著名 物理 学 家 理 查 德 ， 费 曼 命 名 的 ， 其 步骤 如 下 。 


(1) 将 问题 写 下 来 。 
(2) 好 好 思考 。 
(3) 将 答案 写 下 来 。 


计算 机 科学 家 真是 一 群 不 按 常 理 出 牌 的 人 啊 ! 


实际 上 , 根本 没有 找 出 计算 公式 的 简单 办 法 ,你 必须 通过 尝试 才能 找 出 管用 的 公式 。 有 些 算 
法 并 非 精 确 的 解决 步 又， 而 只 是 帮助 你 理 清 思路 的 框架 。 


请 尝试 为 这 个 问题 找到 计算 单元 格 值 的 公式 ,给 你 一 点 提示 吧 : 下面 是 这 个 单元 格 的 一 部 分 。 


村 误 和 和 泣 Sl 
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其 他 单元 格 的 值 呢 ? 别 忘 了 ,每 个 单元 格 都 是 一 个 子 问题 的 值 。 为 何 单元 格 (3, 3) 的 值 为 2 呢 ? 
又 为 何 单元 格 (3, 4) 的 值 为 0 呢 ? 


请 找 出 计算 公式 , 再 接着 往 下 读 。 这 样 即便 你 没 能 找 出 正确 的 公式 , 后 面 的 解释 也 将 容易 理 
解 得 多 。 


9.3.3 ”揭晓 答案 


最 终 的 网 格 如 下 。 


我 使 用 下 面 的 公式 来 计算 每 个 单元 格 的 值 。 


1. 如 果 两 个 字 录 不 
相同 ， 值 力 O 


2 过 如果 两 个 字 好 相同 ， 值 


为 大 上 角 作 后 的 值 如 1 
实现 这 个 公式 的 伪 代 码 类 似 于 下 面 这 样 。 
if wordq_a[il == word_b[j]: 了 <-………… 两 个 字母 相同 
Gell[lil[j] = Cell[i-1][j-1] 和 十 
else: 3 两 个 字母 不 同 
cell[i][j] = 0 


查找 单词 hish 和 vista 的 最 长 公共 子 串 时 ， 网 格 如 下 。 
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Eee 和 
答 系 语 呈 答 系 
需要 注意 的 一 点 是 ， 这 个 问题 的 最 终 答案 并 不 在 最 后 一 个 单元 格 中 ! 对 于 前 面 的 背包 问题 
最 终 答案 总 是 在 最 后 的 单元 格 中 。 但 对 于 最 长 公共 子 串 问题 , 答案 为 网 格 中 最 大 的 数字 一 一 它 可 
能 并 不 位 于 最 后 的 单元 格 中 。 
我 们 回 到 最 初 的 问题 : 哪个 单词 与 hish 更 像 ? hish 和 fish 的 最 长 公共 子 串 包含 三 个 字母 , 而 hish 
和 vista 的 最 长 公共 子 串 包含 两 个 字母 。 
此 Alex 很 可 能 原本 要 输入 的 是 fish。 


9.3.4 最 长 公共 子 序列 
假设 Alex 不 小 心 输入 了 fosh， 他 原本 想 输入 的 是 fish 还 是 fort 呢 ? 
我 们 使 用 最 长 公共 子 串 公 式 来 比较 它们 。 
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这 里 比较 的 是 最 长 公共 子 串 , 但 其 实 应 比较 最 长 公共 子 序列 : 两 个 单词 中 都 有 的 序列 包含 的 
字母 数 。 如 何 计算 最 长 公共 子 序 列 呢 ? 


下 面 是 用 于 计算 fsh 和 fosh 的 最 长 公共 子 序列 的 网 格 的 一 部 分 。 


F DO sh 


你 能 找 出 填充 这 个 网 格 时 使 用 的 公式 吗 ? 最 长 公共 子 序列 与 最 长 公共 子 串 很 像 , 计算 公式 也 
很 像 。 请 试 着 找 出 这 个 公式 一 一 答案 稍 后 揭晓 。 


9.3.5 ”最 长 公共 子 序列 之 解决 方案 
最 终 的 网 格 如 下 。 


最 长 公共 子 序列 = 最 上 长 公共 子 序列 = 了 3 
下 面 是 填写 各 个 单元 格 时 使 用 的 公式 。 
1. 如 果 两 个 字 基 不同， 就 选择 上 方 ( 电 计 算 最 长 从 


和 廊 言 鲜 后 中 科大 绝 司 个 NS 共 子 素 时 不 同 ) 
FNO 3 并 


2. 如 果 两 个 宇 录 相同 ， 就 将 当前 单 匈 格 的 值 设置 为 户 上 方 
利和 匈 格 的 值 如 1 (是 计算 最 长 公共 子 车 时 类 他) 
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9.4 


伪 代 码 如 下 。 

if word al[li] == word_b[j]: 全 ………… 两 个 字母 相同 
cell[i][j] = cell{[i-1][j-1] + 1 

lee A 个 字 本 不 同 | 
cell[i][j] = max(cell{[i-1][j], cell[i][j-1]) 


本 章 到 这 里 就 结束 了 ! 它 绝对 是 本 书 最 难 理解 的 一 章 。 动 态 规划 都 有 哪些 实际 应 用 呢 ? 


口 生物 学 家 根据 最 长 公共 序列 来 确定 DNA 链 的 相似 性 ， 进 而 判断 度 两 种 动物 或 疾病 有 多 相 

似 。 最 长 公共 序列 还 被 用 来 寻找 多 发 性 硬化 症 治疗 方案 。 

口 你 使 用 过 诸如 git aiff 等 命令 吗 ? 它们 指出 两 个 文件 的 差异 , 也 是 使 用 动态 规划 实现 的 。 

口 前 面 讨论 了 字符 串 的 相似 程度 。 编 辑 距 离 ( levenshtein distance ) 指出 了 两 个 字符 串 的 相 
似 程度 ， 也 是 使 用 动态 规划 计算 得 到 的 。 编 辑 距 离 算法 的 用 途 很 多 ， 从 拼写 检查 到 判断 
用 户 上 传 的 资料 是 否 是 次 版， 都 在 其 中 。 

口 你 使 用 过 诸如 Microsoft Word 等 具有 上 断 字 功 能 的 应 用 程序 吗 ? 它们 如 何 确定 在 什么 地 方 断 

字 以 确保 行 长 一 致 呢 ? 使 用 动态 规划 ! 


练习 
9.3 ”请 绘制 并 填充 用 来 计算 blue 和 clues 最 长 公共 子 串 的 网 格 。 


小 结 


口 需要 在 给 定 约束 条 件 下 优化 某 种 指标 时 ,动态 规划 很 有 用 。 

口 问题 可 分 解 为 离散 子 问题 时 ， 可 使 用 动态 规划 来 解决 。 

口 每 种 动态 规划 解决 方案 都 涉及 网 格 。 

口 单元 格 中 的 值 通常 就 是 你 要 优化 的 值 。 

口 每 个 单元 格 都 是 一 个 子 问 题 ， 因 此 你 需要 考虑 如 何 将 问题 分 解 为 子 问题 。 
口 没有 放 之 四 海 丝 准 的 计算 动态 规划 解决 方案 的 公式 。 


口 学 习 使 用 多 最 近邻 算法 创建 分 类 系统 。 

口 学 习 特 征 抽取 。 

口 学 习 回 归 ， 即 预测 数值 ， 如 明天 的 股价 或 用 户 对 某 部 电影 的 喜欢 程度 。 
口 学 习 开 最 近邻 算法 的 应 用 案例 和 局 限 性 。 


10.1 柳 子 还 是 柚子 


请 看 右边 的 水 果 ， 是 橙子 还 是 柚子 呢 ? 我 知道 ， 柚 子 通常 
比 橙子 更 大 、 更 红 。 


我 的 思维 过 程 类 似 于 这 样 : 我 脑子 里 有 个 图 表 。 


. 第 色 


援 色 
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一 般 而 言 , 柚子 更 大 、 更 红 。 这 个 水 果 又 大 又 红 , 因此 很 可 能 是 柚子 。 但 下 面 这 样 的 水 果 呢 ? 
神 穴 的 水 果 


.和 多 


权 色 


如 果 判 断 这 个 水 果 是 橙子 还 是 柚子 呢 ? 一 种 办 法 是 看 它 的 邻居 。 来 看 看 离 它 最 近 的 三 个 邻居 。 


在 这 三 个 邻居 中 ， 柳 子 比 柚子 多 ， 因 此 这 个 水 果 很 可 能 是 柳 子 。 祝 贺 你 ， 你 刚才 就 是 使 用 K 
最 近邻 (k-nearest neighbours，KNN ) 算法 进行 了 分 类 ! 这 个 算法 非常 简单 。 


cc G G 
G G 
G G 6 
? A 一 as 
D _ Oy 
O 
1. 你 需要 对 一 个 水 果 进 行 分 类 2 你 查看 它 三 个 最 近 购 评 后 3. 调 了 这些 施 后 中 ， 梭 子 多 手机 子 ， 


因此 它 筷 可 能 用 棋子 


KNN 算 法 虽然 简单 却 很 有 用 ! 要 对 东西 进行 分 类 时 , 可 首先 尝试 这 种 算法 。 下 面 来 看 一 个 更 
真实 的 例子 。 
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10.2 ”创建 推荐 系统 


假设 你 是 Netflix, 要 为 用 户 创建 一 个 上 


你 可 以 将 所 有 用 户 都 放 入 一 个 图 表 中 。 


E 荐 系统 。 从 本 质 上 说 , 这 类 似 于 前 面 的 水 果 问 题 ! 


这 些 用 户 在 图 表 中 的 位 置 取决 于 其 喜好 ,因此 喜好 相似 的 用 户 距离 较 近 。 假 设 你 要 向 Priyanka 
推荐 电影 ， 可 以 找 出 五 位 与 他 最 接近 的 用 户 。 


假设 在 对 电影 的 喜好 方面 ，Justin、JC、Joey、Lance 和 Chris 都 与 Priyanka 差 不 多 ， 因 此 他 们 
喜欢 的 电影 很 可 能 Priyanka 也 喜欢 ! 


有 了 这 样 的 图 表 以 后 ， 创 建 推荐 系统 就 将 易如反掌 : 只 要 是 Justin 喜 欢 的 电影 ， 就 将 其 推荐 
给 Priyanka。 
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你 可 能 会 喜欢 


女 交 交 检 丰 ey 
> PITCH PERFECT > e\ @e 


， CE , 了 持 这 部 史 影 推荐 
1.9ustin 看 了 一 部 电影 2 他 侯 音 下 给 Priyanka 


但 还 有 一 个 重要 的 问题 没有 解决 。 在 前 面 的 图 表 中 ,相似 的 用 户 相 距 较 近 , 但 如 何 确 定 两 位 
用 户 的 相似 程度 呢 ? 
10.2.1 ”特征 抽取 


在 前 面 的 水 果 示 例 中 , 你 根据 个 头 和 颜色 来 比较 水 果 , 换言之 , 你 比较 的 特征 是 个 头 和 颜色 。 
现在 假设 有 三 个 水 果 ， 你 可 抽取 它们 的 特征 。 


再 根据 这 些 特 征 绘图 。 


站 
守 A 
过 . 
8 
介 头 


从 上 图 可 知 ， 水 果 A 和 B 比 较 像 。 下 面 来 度量 它们 有 多 像 。 要 计算 两 点 的 距离 ， 可 使 用 毕 


哥 拉 斯 公式 。 


册 


例如 ，A 和 B 的 距离 如 下 。 


j (xX,-xD + CY _y) 


ey 


oj 
-1 


A 和 B 的 距离 为 1。 你 还 可 计算 其 他 水 果 之 间 的 距离 。 


这 个 距离 公式 印证 了 你 的 ] 


觉 ， A 和 B 很 像 。 


假设 你 要 比较 的 是 Netflix 用 户 ， 就 需要 以 某 种 方式 将 他 们 放 到 图 表 中 。 因 此 ,你 需要 将 每 位 


在 能 够 将 用 户 放 入 图 表 后 ， 


用 户 都 转换 为 一 组 坐标 ， 就 像 前 面 对 水 果 所 做 的 那样 。 


=—> (2,2) 


你 就 可 以 计算 他 们 之 间 的 距离 了 。 


下 面 是 一 种 将 用 户 转 换 为 


组 数字 的 方式 。 用 户 注册 时 , 要 求 他 们 指出 对 各 种 电影 的 喜欢 程 
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度 。 这 样 ， 对 于 每 位 用 户 ， 都 将 获得 一 组 数字 ! 


喜 副 片 
动 狼 泊 
全 法 汪 
难 悖 浅 
爱情 洱 


Priyanka 和 Justin 都 喜欢 爱情 片 旦 都 讨 大 您 怖 片 。Morpheus 喜 欢 动 作 片 , 但 讨厌 爱情 片 (他 讨 
厌 好 好 的 动作 电影 毁 于 浪漫 的 桥 段 )。 前面 判断 水 果 是 橙子 还 是 柚子 时 , 每 种 水 果 都 用 2 个 数字 表 


[ea 


MORPHEUS 
2 


5 
| 
3 
| 


示 ， 你 还 记得 吗 ? 在 这 里 ， 每 位 用 户 都 用 5 个 数字 表示 。 


在 数学 家 看 来 ， 这 里 计算 的 是 五 维 ( 而 不 是 二 维 ) 空间 中 的 距离 ， 但 计算 公式 不 变 。 


> (2,2) 


> (3,4,4,1,4) 


人 2 5 5 -d) +(e -cy) 


这 个 公式 包含 5 个 而 不 是 2 个 数字 。 


这 个 距离 公式 很 灵活 ， 即 便 涉 及 很 多 个 数字 ,依然 可 以 使 用 它 来 计算 距离 。 你 可 能 会 问 , 涉 


及 5 个 数字 时 ， 距 离 意 味 着 什么 呢 ? 这 种 距离 指出 了 两 组 数字 之 间 的 相似 程度 。 


1 


全 


2 


162 第 10 章 开 最 近邻 算法 


这 是 Priyanka 和 Justin 的 距离 。 


Priyanka 和 Justin 很 像 。Priyanka 和 Morpheus 的 差别 有 多 大 呢 ? 请 计算 他 们 之 间 的 距离 ， 再 接 
着 往 下 读 。 

Priyanka 和 Morpheus 的 距离 为 24, 你 算 对 了 吗 ? 上 述 距离 表明 , Priyanka 的 喜好 更 接近 于 Justin 
而 不 是 Morpheus。 


太 好 了 ! 现在 要 向 Priyanka 推 荐 电影 将 易如反掌 : 只 要 是 Justin 喜 欢 的 电影 ， 就 将 其 推荐 给 
Priyanka， 反 之 亦 然 。 你 这 就 创建 了 一 个 电影 推荐 系统 ! 


如 果 你 是 Netflix 用 户 ，Netflix 将 不 断 提 醒 你 : 多 给 电影 评分 吧 ， 你 评论 的 电影 越 多 ， 给 你 的 
推荐 就 越 准 确 。 现 在 你 明白 了 其 中 的 原因 : 你 评论 的 电影 越 多 ，Netflix 就 越 能 准确 地 判断 出 你 与 
哪些 用 户 类 似 。 

练习 

10.1 在 Netflix 示 例 中 ， 你 使 用 距离 公式 计算 两 位 用 户 的 距离 ， 但 给 电影 打分 时 ， 每 位 用 户 

的 标准 并 不 都 相同 。 假 设 你 有 两 位 用 户 Yogi 和 Pinky， 他 们 欣赏 电影 的 品味 相同 ， 
但 Yogi 给 喜欢 的 电影 都 打 5 分 ,而 Pinky 更 挑剔 ,只 给 特别 好 的 电影 打 5 分 。 他 们 的 品味 
一 致 ， 但 根据 距离 算法 ， 他 们 并 非 邻 居 。 如 何 将 这 种 评分 方式 的 差异 考虑 进来 呢 ? 

10.2 假设 Netflix 指 定 了 一 组 意见 领袖 。 例 如 ，Quentin Tarantino 和 Wes Anderson 就 是 Netflix 
的 意见 领袖 ， 因 此 他 们 的 评分 比 普通 用 户 更 重要 。 请 问 你 该 如 何 修改 推荐 系统 ， 使 其 
扁 重 于 意见 领袖 的 评分 呢 ? 


10.2.2 ”回归 
假设 你 不 仅 要 向 Priyanka 推 荐 电影 ， 还 要 预测 她 将 给 这 部 电影 打 多 少 分 。 为 此 ， 先 找 出 与 她 
最 近 的 5 个 人 。 


顺便 说 一 句 ， 我 老 说 最 近 的 $ 个 人 ， 其 实 并 非 一 定 要 选择 $ 个 最 近 的 邻居 ， 也 可 选择 2 个 、10 
个 或 10 000 个 。 这 就 是 这 种 算法 名 为 K 最 近邻 而 不 是 5 最 近邻 的 原因 1 
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假设 你 要 预测 Priyanka 会 给 电影 Pitch Perfect 打 多 少 分 。Justin、JC、Joey、Lance 和 Chris 都 给 
它 打 了 多 少 分 呢 ? 


JUSsTIN : 5 
JC: 4 
JoFY 才 
LANCE : VV 
CHRIS: 3 


KNN 来 做 两 项 


为 4.2。 这 就 是 回归 ( regression )。 你 将 使 月 


你 求 这 些 人 打 的 分 的 平均 值 ， 结 
基本 工作 一 一 分 类 和 回归 : 


口 分 类 就 是 编组 ; 
口 回归 就 是 预测 结果 ( 如 一 个 数字 )。 
回归 很 有 用 。 假 设 你 在 伯克利 开 个 小 小 的 面包 店 ,每 天 都 做 新 鲜 面 包 ， 


征 预 测 当天 该 烤 多 少 条 面包 : 
D 天 气 指数 1~5 ( 1 表示 天 气 很 精 ，5 表 示 天 气 非常 好 ); 

D 是 不 是 周末 或 节假日 ( 周末 或 节假日 为 1， 否 则 为 0 ); 

口 有 没有 活动 (1 表示 有 ，0 表 示 没 有 )。 eh Wn 

你 还 有 一 些 历史 数据 , 记录 了 在 各 种 不 同 的 日 子 里 售 出 的 面包 数量 。 


需要 根据 如 下 一 组 特 


[EN(S,1,0): 389 [El 贡 全 225 
医 IN 生男 = 和 [4 ,5 ,1) 和 76% 
让 


GD 
159% [EX 2,9,8) = 5% 


夺 
E 售 出 多 少 条 面包 呢 ? 我 们 来 使 用 KNN 0 


今天 是 周末 , 天 气 不 错 。 根据 这 些 数 据 , 预测 你 今天 能 售 } 
算法 ， 其 中 的 K 为 4。 首 先 ， 找 出 与 今天 最 接近 的 4 个 邻居 。 


(4,1,98) =? 
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距离 如 下 ， 因 此 最 近 的 邻居 为 A、B、D 和 E。 
— 
和 一 


人 一 
人 一 


nN NP 
TPO DO OP 


将 这 些 天 售 出 的 面包 数 平均 ， 结 果 为 218.75。 这 就 是 你 今天 要 烤 的 面包 数 | 


余弦 相似 度 
前 面 计算 两 位 用 户 的 距离 时 ,使 用 的 都 是 距离 公式 ,还 有 更 合适 的 公式 吗 ? 在 实际 工作 中 ， 
经 常 使 用 余弦 相似 度 ( cosine similarity )。 假 设 有 两 位 品味 类 似 的 用 户 ， 但 其 中 一 位 打分 时 更 
保守 。 他 们 都 很 喜欢 Manmohan Desai 的 电影 4mar Akbar Anthony， 但 Paul 给 了 5 星 ， 而 Rowan 只 
给 4 星 。 如 果 你 使 用 距离 公式 ， 这 两 位 用 户 可 能 不 是 令 居 ， 虽 然 他 们 的 品味 非常 接近 。 
余弦 相似 度 不 计算 两 个 矢量 的 距离 ,而 比较 它们 的 角度 ,因此 更 适合 处 理 前 面 所 说 的 情况 。 
本 书 不 讨论 余弦 相似 度 ， 但 如 果 你 要 使 用 KNN， 就 一 定 要 研究 研究 它 1 


10.2.3 ”挑选 合适 的 特征 


> 

为 推荐 电影 ， 你 让 用 户 指出 他 对 各 类 电影 的 喜好 程度 。 如 果 x 
你 是 让 用 户 给 一 系列 小 猫 图 片 打分 呢 ? 在 这 种 情况 下 ,你 找 出 的 1 

是 对 小 猫 图 片 的 欣赏 品味 类 似 的 用 户 。 对 电影 推荐 系统 来 说 ,这 

很 可 能 是 一 个 糟糕 的 推荐 引擎 ， 因 为 你 选择 的 特征 与 电影 欣赏 品味 没 多 大 关系 。 


又 假设 你 只 让 用 户 给 《玩具 总 动员 》《 玩 具 总 动员 2》 和 《玩具 总 动员 3》 打 分 。 这 将 难以 让 
用 户 的 电影 欣赏 品味 显现 出 来 ! 使 用 KNN 时 , 挑选 合适 的 特征 进行 比较 至 关 重 要 。 所 谓 合适 的 特 
征 ， 就 是 : 

D 与 要 推荐 的 电影 紧密 相关 的 特征 ; 
口 不 偏 不 倚 的 特征 〈 例如 , 如 果 只 让 用 户 给 喜剧 片 打分 ,就 无 法 判断 他 们 是 否 喜欢 动作 片 )。 


你 认为 评分 是 不 错 的 电影 推荐 指标 吗 ? 我 给 The Wire 的 评分 可 能 比 House Hunters 高 ， 但 实际 
上 我 观看 House Hunters 的 时 间 更 长 。 该 如 何 改 进 Netflix 的 推荐 系统 呢 ? 
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回 到 面包 店 的 例子 : 对 于 面包 店 ， 你 能 找 出 两 个 不 错 和 糟糕 的 特征 吗 ” 在 报纸 上 打 广 告 后 ， 
你 可 能 需要 烤 制 更 多 的 面包 ; 或 者 每 周一 你 都 需要 烤 制 更 多 的 面包 。 
在 挑选 合适 的 特征 方面 ， 没 有 放 之 四 海 丝 准 的 法 则 ， 你 必须 考虑 到 各 种 需要 考虑 的 因素 。 


练习 
10.3 ”Netflix 的 用 户 数 以 百 万 计 ， 前 面 创 建 推荐 系统 时 只 考虑 了 5 个 最 近 的 邻居 ， 这 是 大 多 
还 是 太 少 了 呢 ? 
10.3 ”机 器 学 习 简 介 
KNN 算 法 真 的 是 很 有 用 ， 堪 称 你 进入 神奇 的 机 器 学 习 领 域 的 
领路 人 ! 机 器 学 习 旨 在 让 计算 机 更 聪明 。 你 见 过 一 个 机 器 学 习 的 
例子 : 创建 推荐 系统 。 下 面 再 来 看 看 其 他 一 些 例子 。 iE 
ED 
10.3.1 OCR 人 ] 


OCR 指 的 是 光学 字符 识别 ( optical character recognition ), 这 意味 着 你 可 拍摄 印刷 页 面 的 照片 ， 
计算 机 将 自动 识别 出 其 中 的 文字 。Google 使 用 OCR 来 实现 图 书 数字 化 ,。 OCR 是 如 何 工作 的 呢 ? 我 
们 来 看 一 个 例子 。 请 看 下 面 的 数字 。 


如 何 自动 识别 出 这 个 数字 是 什么 呢 ? 可 使 用 KNN。 

(1) 浏览 大 量 的 数字 图 像 ， 将 这 些 数字 的 特征 提取 出 来 。 

(2) 遇 到 新 图 像 时 ， 你 提取 该 图 像 的 特征 ， 再 找 出 它 最 近 的 邻居 都 是 谁 ! 

这 与 前 面 判 断水 果 是 橙子 还 是 柚子 时 一 样 。 一 般 而 言 , OCR 算法 提取 线段 点 和 曲线 等 特征 。 


人 出 胞 


遇 到 新 字符 时 ， 可 从 中 提取 同样 的 特征 。 
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与 前 面 的 水 果 示 例 相 比 ，OCR 中 的 特征 提取 要 复杂 得 多 ,但 再 复杂 的 技术 也 是 基于 KNN 等 
简单 理念 的 。 这 些 理念 也 可 用 于 语音 识别 和 人 脸 识 别 。 你 将 照片 上 传 到 Facebook 时 ， 它 有 时 候 能 
够 自动 标 出 照片 中 的 人 物 ， 这 是 机 器 学 习 在 发 挥 作用 ! 


OCR 的 第 一 步 是 查看 大 量 的 数字 图 像 并 提取 特征 ， 这 被 称 为 训练 (training )。 大 多 数 机 带 学 
习 算 法 都 包含 训练 的 步骤 : 要 让 计算 机 完成 任务 , 必须 先 训练 它 。 下 一 个 示例 是 垃圾 邮件 过 滤 需 ， 
其 中 也 包含 训练 的 步骤 。 


10.3.2 ”创建 垃圾 邮件 过 滤器 


垃圾 邮件 过 滤器 使 用 一 种 简单 算法 一 一 朴素 贝 叶 斯 分 类 器 (Naive Bayes classifier )， 你 首先 
需要 使 用 一 些 数 据 对 这 个 分 类 器 进行 训练 。 


多 要 


是 不 是 坊 汲 旺 件 
WRESET YeuR FASSWORD" 
Yo RANE WoN 4 WILIoN DeLLRRS" 是 
MjEND ME Youf PP55weRD 是 
NACERIAN PRINCE SENDS YOY 40 MILLION DoLARS" 是 
"HAPPY BRKIRPAY” 不 是 


假设 你 收 到 一 封 主题 为 “collect your million dollars now!” 的 邮件 ， 这 是 垃圾 邮件 吗 ? 你 可 研 
究 这 个 句子 中 的 每 个 单词 ， 看 看 它 在 垃圾 邮件 中 出 现 的 概率 是 多 少 。 例 如 , 使 用 这 个 非常 简单 的 
模型 时 ， 发 现 只 有 单词 million 在 垃圾 邮件 中 出 现 过 。 朴 素 贝 叶 斯 分 类 器 能 计算 出 邮件 为 垃圾 邮件 
的 概率 ， 其 应 用 领域 与 KNN 相 似 。 


例如 ,你 可 使 用 朴素 贝 叶 斯 分 类 器 来 对 水 果 进 行 分 类 : 假设 有 一 个 又 大 又 红 的 水 果 , 它 是 机 


下， 此 下 
子 的 概率 是 多 少 呢 ? 朴素 贝 叶 斯 分 类 器 也 是 一 种 简单 而 极其 有 效 的 算法 。 我 们 钟爱 这 样 的 算法 ! 
卖 和 必 1 
卖 几 1 
实 竺 | 
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10.3.3 ”预测 股票 市 场 


使 用 机 器 学 习 来 预测 股票 市 场 的 涨 跌 真 的 很 难 。 对 于 股票 市 场 , 如 何 挑选 合适 的 特征 呢 ? 股 
票 昨 天 涨 了 , 今天 也 会 涨 , 这 样 的 特征 合适 吗 ? 又 或 者 每 年 五 月 份 股 票 市 场 都 以 绿 盘 报 收 ， 这 样 
的 预测 可 行 吗 ?” 在 根据 以 往 的 数据 来 预测 未 来 方面 , 没有 万 无 一 失 的 方法 。 未 来 很 难 预测 ,由 于 
涉及 的 变数 太 多 ， 这 几乎 是 不 可 能 完成 的 任务 。 


10.4 小 结 


但 愿 通过 阅读 本 章 , 你 对 KNN 和 机 器 学 习 的 各 种 用 途 能 有 大 致 的 认识 ! 机 器 学 习 是 个 很 有 趣 
的 领域 ， 只 要 下 定 决心 ， 你 就 能 很 深入 地 了 解 它 。 
口 KNN 用 于 分 类 和 回归 ， 需 要 考虑 最 近 的 邻居 。 
口 分 类 就 是 编组 。 
口 回归 就 是 预测 结果 ( 如 数字 )。 
口 特征 抽取 意味 着 将 物品 ( 如 水 有 果 或 用 户 ) 转换 为 一 系列 可 比较 的 数字 。 
口 能 否 挑选 合适 的 特征 事 关 KNN 算 法 的 成 败 。 


接 下 来 如 何 做 


口 概述 本 书 未 介绍 的 10 种 算法 以 及 它们 很 有 用 的 原因 。 
口 如 何 根据 兴趣 选择 接 下 来 要 阅读 的 内 容 。 


11.1 树 


在 前 面 的 二 分 查找 示例 中 ,每 当 用 户 登 录 Facebook 时 ，Facebook 都 必须 在 一 个 庞大 的 数组 中 
查找 ， 核 实 其 中 是 否 包 含 指定 的 用 户 名 。 前 面 说 过 , 在 这 种 数组 中 查找 时 ， 最 快 的 方式 是 二 分 查 
找 , 但 问题 是 每 当 有 新 用 户 注 册 时 ， 都 必须 将 其 用 户 名 插入 该 数组 并 重新 排序 ， 因 为 二 分 查找 仅 
在 数组 有 序 时 才 管 用 。 如 果 能 将 用 户 名 插入 到 数组 的 正确 位 置 就 好 了 , 这样 就 无 需 在 插入 后 再 排 
序 。 为 此 ， 有 人 设计 了 一 种 名 为 二 又 查找 树 (binary search tree ) 的 数据 结构 。 


二 又 查找 树 类 似 于 下 面 这 样 。 


we 
Cs) 


对 于 其 中 的 每 个 节点 ， 左 子 节 点 的 值 都 比 它 小 ， 而 右 子 节点 的 值 都 比 它 大 。 
有 DO Ce 


Dovid 
和 四 位 人 7 


Bo 
Maring™ 


假设 你 要 查找 Maggie。 为 此 ， 你 首先 检查 根 节点 。 


Maggie 排 在 David 的 后 面 ， 因 此 你 往 右边 找 。 
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ol 


Maggie 排 在 Manning 前 面 ， 因 此 你 往 左边 找 。 


终于 找到 了 Maggie! 这 几乎 与 二 分 查找 一 样 ! 在 二 义 查 找 树 中 查找 节点 时 , 平均 运行 时 间 为 
O(log n)， 但 在 最 糟 的 情况 下 所 需 时 间 为 O(n); 而 在 有 序数 组 中 查找 时 ， 即 便 是 在 最 糟 情况 下 所 
需 的 时 间 也 只 有 O(log n)， 因 此 你 可 能 认为 有 序数 组 比 二 又 查找 树 更 佳 。 然 而 ， 二 又 查 找 树 的 插 
入 和 删除 操作 的 速度 要 快 得 多 。 


ere 


最 但 二 叉 查 总 村 
坦 雹 Oload | Q 〇 Com 
格 六 OOC O 〇 (es 
届 估 OO QO (ea 
二 又 查 找 树 也 存在 一 些 缺 点 ， 例 如 ， 不 能 随机 访问 ， 就 像 不 能 这 么 说 :“ 给 我 第 五 个 元 素 。 


在 二 又 查找 树 处 于 平衡 状态 时 ， 平 均 访问 时 间 也 为 Otlog )。 假 设 二 叉 查 找 树 像 下 面 这 样 处 于 不 
平衡 状态 。 
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注意 ， 这 标 树 是 向 右倾 斜 的 ， 因 此 性 能 不 佳 。 也 有 一 些 处 于 平衡 状态 的 特殊 二 又 查找 树 ， 
如 红 黑 树 。 


那 在 什么 情况 下 使 用 二 又 查找 树 呢 ? B 树 是 一 种 特殊 的 二 又 树 ， 数 据 库 常 用 它 来 存储 数据 。 


如 果 你 对 数据 库 或 高 级 数据 结构 感 兴趣 ， 请 研究 如 下 数据 结构 : B 树 ， 红 黑 树 ， 堆 ， 
伸展 树 。 


11.2 反 向 索引 
这 里 非常 简单 地 说 说 搜索 引擎 的 工作 原理 。 假 设 你 有 三 个 网 页 ， 内 容 如 下 。 


A. B. C 


我 们 根据 这 些 内 容 创建 一 个 散 列表 。 


这 个 散 列 表 的 键 为 单词 ， 值 为 包含 指定 单词 的 页 面 。 现 在 假设 有 用 户 搜 
索 hi， 在 这 种 情况 下 ， 搜 索引 警 需要 检查 哪些 页 面包 含 hi。 


eo 
fi Pt |A,g|, 


搜索 引擎 发 现 页 面 A 和 B 包 含 hi, 因此 将 这 些 页 面 作为 搜索 结果 呈现 给 用 户 。 现 在 假设 用 户 搜 
索 there。 你 知道 ， 页 面 A 和 C 包 含 它 。 非 常 简单 ， 不 是 吗 ” 这 是 一 种 很 有 用 的 数据 结构 : 一 个 散 
列表 ， 将 单词 映射 到 包含 它 的 页 面 。 这 种 数据 结构 被 称 为 反 向 索引 (inverted index )， 常 用 于 创 
建 搜索 引擎 。 如 果 你 对 搜索 感 兴趣 ， 从 反 向 索引 着 手 研究 是 不 错 的 选择 。 


11.3 ” 传 里 时 变换 


绝妙 、 优 雅 且 应 用 广泛 的 算法 少 之 又 少 ， 传 里 时 变换 算是 一 个 。Better Explained 是 一 个 杰出 
的 网 站 ,致力 于 以 通俗 易 懂 的 语言 阐释 数学 ， 它 就 傅 里 叶 变 换 做 了 一 个 绝 佳 的 比喻 : 给 它 一 杯 冰 
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沙 ， 它 能 告诉 你 其 中 包含 哪些 成 分 "。 换 言 之 ， 给 定 一 首 歌曲 ， 傅 里 叶 变 换 能 够 将 其 中 的 各 种 频 
率 分 离 出 来 。 

这 种 理念 虽然 简单 ， 应 用 却 极其 广泛 。 例如， 如 果 能 够 将 歌曲 分 解 为 不 同 的 频率 ,就 可 强化 
你 关心 的 部 分 ,如 强化 低音 并 隐藏 高 音 。 传 里 叶 变换 非常 适合 用 于 处 理 信 号 ,可 使 用 它 来 压缩 音 
乐 。 为 此 ,首先 需要 将 音频 文件 分 解 为 音符 。 侍 里 叶 变 换 能 够 准确 地 指出 各 个 音符 对 整个 歌曲 的 
贡献 ， 让 你 能 够 将 不 重要 的 音符 删除 。 这 就 是 MP3 格 式 的 工作 原理 ! 

数字 信号 并 非 只 有 音乐 一 种 类 型 。JPG 也 是 一 种 压缩 格式 ， 也 采用 了 刚才 说 的 工作 原理 。 传 
里 叶 变 换 还 被 用 来 地 震 预测 和 DNA 分 析 。 

使 用 传 里 叶 变 换 可 创建 类 似 于 Shazam 这 样 的 音乐 识别 软件 。 傅 里 叶 变 换 的 用 途 极其 广泛 , 你 
遇 到 它 的 可 能 性 极 高 ! 


11.4 “并 行 算 法 


接 下 来 的 三 个 主题 都 与 可 扩展 性 和 海量 数据 处 理 相 关 。 我 们 身 处 一 个 处 理 器 速度 越 来 越 快 的 
时 代 ， 如 果 你 要 提高 算法 的 速度 ,可 等 上 几 个 月 , 届时 计算 机 本 身 的 速度 就 会 更 快 。 但 这 个 时 代 
已 接近 尾声 ， 因 此 笔记 本 电脑 和 台式 机 转 而 采用 多 核 处 理 器 。 为 提高 算法 的 速度 ,你 需要 让 它们 
能 够 在 多 个 内 核 中 并 行 地 执行 ! 

来 看 一 个 简单 的 例子 。 在 最 佳 情 况 下 ,排序 算法 的 速度 大 致 为 O(n log n)。 众 所 周知 ， 对 数组 
进行 排序 时 ， 除 非 使 用 并 行 算法 ， 否 则 运行 时 间 不 可 能 为 O(n)! 对 数组 进行 排序 时 ,快速 排序 的 
并 行 版 本 所 需 的 时 间 为 O(n)。 

并 行 算法 设计 起 来 很 难 , 要 确保 它们 能 够 正确 地 工作 并 实现 期 望 的 速度 提升 也 很 难 。 有 一 点 
是 确定 的 , 那 就 是 速度 的 提升 并 非 线性 的 , 因此 即便 你 的 笔记 本 电脑 装备 了 两 个 而 不 是 一 个 内 核 ， 
算法 的 速度 也 不 可 能 提高 一 倍 ， 其 中 的 原因 有 两 个 。 

口 并 行 性 管理 开销 。 假 设 你 要 对 一 个 包含 1000 个 元 素 的 数组 进行 排序 ， 如 何在 两 个 内 核 之 

间 分 配 这 项 任务 呢 ? 如 果 让 每 个 内 核对 其 中 500 个 元 素 进 行 排序 ， 再 将 两 个 排 好 序 的 数组 
合并 成 一 个 有 序数 组 ， 那 么 合并 也 是 需要 时 间 的 。 

口 负载 均衡 。 假 设 你 需要 完成 10 个 任务 ， 因 此 你 给 每 个 内 核 都 分 配 5 个 任务 。 但 分 配给 内 核 

A 的 任务 都 很 容易 ，10 秒 钟 就 完成 了 ， 而 分 配给 内 核 B 的 任务 都 很 难 ，!1 分 钟 才 完 成 。 这 意 
味 着 有 那么 50 秒 ， 内 核 B 在 忙 死 忙活 ， 而 内 核 A 却 闲 得 很 ! 你 如 何 均 匀 地 分 配 工作 ， 让 两 
个 内 核 都 一 样 忙 呢 ? 


要 改善 性 能 和 可 扩展 性 ， 并 行 算法 可 能 是 不 错 的 选择 ! 


人 摘自 Kalid 发 表 在 Better Explained 上 的 文章 “An Interactive Guide to the Fourier Transform”， 网 址 为 http://mng.bx/874X。 
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11.5 MapReduce 


有 一 种 特殊 的 并 行 算法 正 越 来 越 流 行 , 它 就 是 分 布 式 算 法 。 在 并 行 算法 只 需 两 到 四 个 内 核 时 ， 
完全 可 以 在 笔记 本 电脑 上 运行 它 , 但 如 果 需 要 数 百 个 内 核 呢 ? 在 这 种 情况 下 , 可 让 算法 在 多 台 计 
算 机 上 运行 。MapReduce 是 一 种 流行 的 分 布 式 算法 ， 你 可 通过 流行 的 开源 工具 Apache Hadoop 来 
使 用 它 。 


11.5.1 分 布 式 算法 为 何 很 有 用 


假设 你 有 一 个 数据 库 表 ,包含 数 十 亿 万 至 数 万 亿 行 ， 需 要 对 其 执行 复杂 的 SQL 查询 。 在 这 种 
情况 下 ， 你 不 能 使 用 MySQL， 因 为 数据 表 的 行 数 超过 数 十 亿 后 ， 它 处 理 起 来 将 很 吃力 。 相 反 ， 
你 需要 通过 Hadoop 来 使 用 MapReduce! 


又 假设 你 需要 处 理 一 个 很 长 的 清单 ,其 中 包含 100 万 个 职位 ， 而 每 个 职位 处 理 起 来 需要 10 秒 。 
如 果 使 用 一 台 计 算 机 来 处 理 ， 将 耗 时 数 月 ! 如 果 使 用 100 台 计算 机 来 处 理 ， 可 能 几 天 就 能 完工 。 

分 布 式 算法 非常 适合 用 于 在 短 时 间 内 完成 海量 工作 ， 其 中 的 MapReduce 基 于 两 个 简单 的 理 
念 : 映射 (map ) 函数 和 归并 (reduce ) 函数 。 


11.5.2 ”映射 函数 
映射 函数 很 简单 ， 它 接受 一 个 数组 ， 并 对 其 中 的 每 个 元 素 执行 同样 的 处 理 。 例 如 ,下 面 的 映 
射 函数 将 数组 的 每 个 元 素 翻 倍 。 


>>> arrl EL 2 3 Ey: 
>>> arr2 map(lambda x: 2 * x, arrl) 


[2 sy. “O28: Bi0] 
we 


2141s ls 


arr2 包 含 [2，4，6，8，10]: 将 数组 arr1 的 每 个 元 素 都 翻 倍 ! 将 元 素 翻 倍 的 速度 非常 快 ， 
但 如 果 要 执行 的 操作 需要 更 长 的 时 间 呢 ?请 看 下 面 的 伪 代 码 。 


>>> arrl =# A list of URLS 
>>> arr2 = map (download page, arrl]l) 


在 这 个 示例 中 ， 你 有 一 个 URL 清 单 ， 需 要 下 载 每 个 URL 指 向 的 页 面 并 将 这 些 内 容 存储 在 数组 
arr2 中 。 对 于 每 个 URL, 处 理 起 来 都 可 能 需要 几 秒 钟 。 如 果 总 共有 1000 个 URL, 可 能 耗 时 几 小 时 ! | 
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如 果 有 100 台 计算 机 ， 而 map 能 够 自动 将 工作 分 配给 这 些 计算 机 去 完成 就 好 了 。 这 样 就 可 同 
时 下 载 100 个 页 面 ， 下 载 速度 将 快 得 多 ! 这 就 是 MapReduce 中 “映射 ”部 分 基于 的 理念 。 


11.5.3 ”归并 函数 
归并 函数 可 能 令 人 迷惑 ,其 理念 是 将 很 多 项 归并 为 一 项 ,映射 是 将 一 个 数组 转换 为 男 一 个 数组 。 


下 面 是 一 个 示例 。 

pp Ei 

>>> reduce (lambda x,y: x+y, arrl) 
5 


在 这 个 示例 中 ， 你 将 数组 中 的 所 有 元 素 相 加 : 1+2+3+4+5=15! 这 里 不 深入 介绍 归并 ， 
网 上 有 很 多 这 方面 的 教程 。 


MapReduce 使 用 这 两 个 简单 概念 在 多 台 计 算 机 上 执行 数据 查询 。 数 据 集 很 大 ,包含 数 十 亿 行 
时 ,使 用 MapReduce 只 需 几 分 钟 就 可 获得 查询 结果 ， 而 传统 数据 库 可 能 要 耗费 数 小 时 。 


11.6 布 隆 过 滤器 和 HyperLogLog 


假设 你 管理 着 网 站 Reddit。 每 当 有 人 发 布 链接 时 ， 你 都 要 检查 它 以 前 是 否 发 布 过 ， 因 为 之 前 
未 发 布 过 的 故事 更 有 价值 。 


又 假设 你 在 Google 负 责 搜集 网 页 , 但 只 想 搜集 新 出 现 的 网 页 , 因此 需要 判断 网 页 是 否 搜集 过 。 
在 假设 你 管理 着 提供 网 址 缩短 服务 的 bitly, 要 避免 将 用 户 重 定向 到 恶意 网 站 .你 有 一 个 清单 ， 
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其 中 记录 了 亚 意 网 站 的 URL。 你 需要 确定 要 将 用 户 重 定向 到 的 URL 是 否 在 这 个 清单 中 。 
这 些 都 是 同一 种 类 型 的 问题 ， 涉 及 庞大 的 集合 。 


给 定 一 个 元 素 , 你 需要 判断 它 是 否 包含 在 这 个 集合 中 。 为 快速 做 出 这 种 判断 , 可 使 用 散 列 表 。 
例如 ，Google 可 能 有 一 个 庞大 的 散 列 表 ， 其 中 的 键 是 已 搜集 的 网 页 。 


要 判断 是 否 已 搜集 aditio， 可 在 这 个 散 列表 中 查找 它 。 


Cdi 丰 AQ 一 YE5 


adit .io 是 这 个 散 列 表 中 的 一 个 键 ， 这 说 明 已 搜集 它 。 散 列表 的 平均 查找 时 间 为 0(1)， 即 查 
找 时 间 是 固定 的 ， 非 常 好 ! 


只 是 Google 需 要 建立 数 万 亿 个 网 页 的 索引 , 因此 这 个 散 列表 非常 大 ,需要 占用 大 量 的 存储 空 
间 。Reddit 和 bit.ly 也 面临 着 这 样 的 问题 。 面 临海 量 数据 ， 你 需要 创造 性 的 解决 方案 ! 


11.6.1 布 隆 过 滤器 


布 隆 过 滤器 提供 了 解决 之 道 。 布 隆 过 滤器 是 一 种 概率 型 数据 结构 , 它 提供 的 答案 有 可 能 不 对 ， 
但 很 可 能 是 正确 的 。 为 判断 网 页 以 前 是 否 已 搜集 ， 可 不 使 用 散 列表 ， 而 使 用 布 隆 过 滤器 。 使 用 散 
列表 时 ， 答 案 绝 对 可 靠 ， 而 使 用 布 隆 过 滤器 时 ， 答 案 却 是 很 可 能 是 正确 的 。 


o 可 能 测 现 错 报 的 情况 ， 即 Google 可 能 指出 “这 个 网 站 已 搜集 ”, 胆 实际 上 并 没有 搜 朱 。 于 
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口 不 可 能 出 现 漏 报 的 情况 ， 即 如 果 布 隆 过 滤器 说 “这 个 网 站 未 搜集 *， 就 肯定 未 搜集 。 

布 隆 过 滤器 的 优点 在 于 占用 的 存储 空间 很 少 。 使 用 散 列表 时 ,必须 存储 Google 搜 集 过 的 所 有 
URL， 但 使 用 布 隆 过 滤器 时 不 用 这 样 做 。 布 隆 过 滤器 非常 适合 用 于 不 要 求 答案 绝对 准确 的 情况 ， 
前 面 所 有 的 示例 都 是 这 样 的 。 对 bitly 而 言 , 这 样 说 完全 可 行 :“ 我 们 认为 这 个 网 站 可 能 是 恶意 的 ， 
请 倍加 小 心 。 


11.6.2 HyperLogLog 


HyperLogLog 是 一 种 类 似 于 布 隆 过 滤器 的 算法 。 如 果 Google 要 计算 用 户 执 行 的 不 同 搜索 的 数 
量 ， 或 者 Amazon 要 计算 当天 用 户 浏览 的 不 同 商品 的 数量 ， 要 回答 这 些 问 题 ， 需 要 耗 用 大 量 的 空 
间 ! 对 Google 来 说 , 必须 有 一 个 日 志 , 其 中 包含 用 户 执行 的 不 同 搜索 。 有 用 户 执行 搜索 时 , Google 
必须 判断 该 搜索 是 否 包含 在 日 志 中 : 如 果 答案 是 否定 的 ， 就 必须 将 其 加 入 到 日 志 中 。 即 便 只 记录 
一 天 的 搜索 ， 这 种 日 志 也 大 得 不 得 了 ! 


HyperLogLog 近 似 地 计算 集合 中 不 同 的 元 素数 , 与 布 隆 过 滤器 一 样 , 它 不 能 给 出 准确 的 答案 ， 
但 也 八 九 不 离 十 ， 而 占用 的 内 存 空间 却 少 得 多 。 


面临 海量 数据 且 只 要 求 答案 八 九 不 离 十 时 ， 可 考虑 使 用 概率 型 算法 ! 


11.7 SHA 算法 


还 记得 第 5 章 介绍 的 散 列 算法 吗 ? 我 们 回顾 一 下 ,假设 你 有 一 个 键 , 需要 将 其 相关 联 的 值 放 
到 数组 中 。 


© 和 之 3 疾 SG A 10 LL 42 3 44 145 16 £7 19 49 20, 214 ZA 23 A425 
你 使 用 散 列 函数 来 确定 应 将 这 个 值 放 在 数组 的 什么 地 方 。 


1 打头 的 jG4T 头 的 
放 在 这 里 放 在 这 里 24T 头 的 
CC 打头 的 l 打 头 的 。 放 在 这 里 
| 六 站 这 里 … 9 这 时 


罗 和 这 ”入 二 & 3 3 9 10 11 12 i13 14 15 16 i117 13 19 20 21 Z2 23 24 25 


你 将 值 放 在 这 个 地 方 。 


APPLE5 不 
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这 样 查找 时 间 是 固定 的 。 当 你 想 要 知道 指定 键 对 应 的 值 时 ， 可 再 次 执行 散 列 函数 ,， 它 将 告诉 
你 这 个 值 存储 在 什么 地 方 ， 需 要 的 时 间 为 0(1)。 

在 这 个 示例 中 ,你 希望 散 列 函数 的 结果 是 均匀 分 布 的 。 散 列 函 数 接受 一 个 字符 串 ,， 并 返回 一 
个 索引 号 。 


11.7.1 比较 文件 
另 一 种 散 列 函数 是 安全 散 列 算法 ( secure hash algorithm，SHA ) 函数 。 给 定 一 个 字符 串 ,， SHA 
返回 其 散 列 值 。 


“heLuo"” DS 2cf24db 


这 里 的 术语 有 点 令 人 迷惑 .SHA 是 一 个 散 列 函数 , 它 生 成 一 个 获 列 值 一 一 一 个 较 短 的 字符 串 。 
用 于 创建 散 列 表 的 散 列 函数 根据 字符 串 生 成 数组 索引 ， 而 SHA 根据 字符 串 生 成 另 一 个 字符 串 。 


对 于 每 个 不 同 的 字符 串 ，SHA 生 成 的 散 列 值 都 不 同 。 


‘pello” D> 72cf24db. 


“olgorithm” bieb2ec.. 
ba Password 之 be ZA4 84... 


说 明 
SHA 生成 的 散 列 值 很 长 ， 这 里 截 短 了 。 


你 可 使 用 SHA 来 判断 两 个 文件 是 否 相同 , 这 在 比较 超大 型 文件 时 很 有 用 。 假设 你 有 一 个 4 GB 
的 文件 ,并 要 检查 朋友 是 否 也 有 这 个 大 型 文件 。 为 此 ,你 不 用 通过 电子 邮件 将 这 个 大 型 文件 发 送 


给 朋友 ， 而 可 计算 它们 的 SHA 散 列 值 ， 再 对 结果 进行 比较 。 


朋友 的 文件 


数列 值 扯 同 ， 因 臣 
是 同一 个 文件 
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11.7.2 ”检查 密码 


SHA 还 让 你 能 在 不 知道 原始 字符 串 的 情况 下 对 其 进行 比较 。 例 如 ,假设 Gmail 唱 到 攻击 ， 攻 
击 者 窃取 了 所 有 的 密码 ! 你 的 密码 暴露 了 吗 ? 没有 ， 因 为 Google 存 储 的 并 非 密码 ， 而 是 密码 的 
SHA 散 列 值 ! 你 输入 密码 时 ，Google 计 算 其 散 列 值 ， 并 将 结果 同 其 数据 库 中 的 散 列 值 进 行 比较 。 


i 

出产 六 ”六 才 地 2 
coit | 6 ca13d 

你 的 密码 该 省 码 的 do 


数列 值 同 奉 储 站 基 据 亩 中 说 明 守 码 正 确 
的 数列 值 进 行 上 比较 


Google 只 是 比较 散 列 值 ， 因 此 不 必 存 储 你 的 密码 ! SHA 被 广泛 用 于 计算 密码 的 散 列 值 。 这 种 
散 列 算法 是 单 向 的 。 你 可 根据 字符 串 计 算出 散 列 值 。 


abc1423 一 > eca134 
但 你 无 法 根据 散 列 值 推断 出 原始 字符 串 。 


六 < 6ca13d. 


这 意味 着 计算 攻击 者 窃取 了 Gmail 的 SHA 散 列 值 ， 也 无 法 据 此 推断 出 原始 密码 ! 你 可 将 密码 
转换 为 散 列 值 ， 但 反 过 来 不 行 。 

SHA 实际 上 是 一 系列 算法 : SHA-0、SHA-1、SHA-2 和 SHA-3。 本 书 编写 期 间 , SHA-0 和 SHA-1 
已 被 发 现存 在 一 些 缺 陷 。 如 果 你 要 使 用 SHA 算法 来 计算 密码 的 散 列 值 ， 请 使 用 SHA-2 或 SHA-3。 
当前 ， 最 安全 的 密码 散 列 函数 是 bcrypt， 但 没有 任何 东西 是 万 无 一 失 的 。 


11.8 ”局 部 敏感 的 散 列 算法 
SHA 还 有 一 个 重要 特征 ， 屠 就 是 局 部 不 敏感 的 。 假 设 你 有 一 个 字符 串 ， 并 计算 了 其 散 列 值 。 


dm 6 
如 果 你 修改 其 中 的 一 个 字符 ， 再 计算 其 散 列 值 ， 结 果 将 截然 不 同 ! 


这 很 好 ， 让 攻击 者 无 法 通过 比较 散 列 值 是 否 类 似 来 破解 密码 。 
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有 时 候 ， 你 希望 结果 相反 ， 即 希望 散 列 函数 是 局 部 敏感 的 。 在 这 种 情况 下 ， 可 使 用 Simhash。 

如 果 你 对 字符 串 做 细微 的 修改 ，Simhash 生 成 的 散 列 值 也 只 存在 细微 的 差别 。 这 让 你 能 够 通过 比 

较 散 列 值 来 判断 两 个 字符 串 的 相似 程度 ， 这 很 有 用 ! 

口 Google 使 用 Simhash 来 判断 网 页 是 否 已 搜集 。 

口 老师 可 以 使 用 Simhash 来 判断 学 生 的 论文 是 否 是 从 网 上 抄 的 。 

口 Scribd 允 许 用 户 上 传 文档 或 图 书 ， 以 便 与 人 分 享 , 但 不 希望 用 户 上 传 有 版 权 的 内 容 ! 这 个 
网 站 可 使 用 Simhash 来 检查 上 传 的 内 容 是 否 与 小 说 《 哈 利 : 波 特 》 类 似 ， 如 果 类 似 ， 就 自 
动 拒 绝 。 

需要 检查 两 项 内 容 的 相似 程度 时 ，Simhash 很 有 用 。 


11.9 ”Diffie-Hellman 密 钥 交 换 


这 里 有 必要 提 一 提 Diffie-Hellman 算 法 , 它 以 优雅 的 方式 解决 了 一 个 古老 的 问题 : 如 何 对 消息 
进行 加 密 ， 以 便 只 有 收 件 人 才能 看 懂 呢 ? 

最 简单 的 方式 是 设计 一 种 加 密 算法 ， 如 将 a 转换 为 1，b 转 换 为 2， 以 此 类 推 。 这 样 ， 如 果 我 给 
你 发 送 消 息 “4,15,7”， 你 就 可 将 其 转换 为 “d,o,g”。 但 我 们 必须 就 加 密 算法 达成 一 致 ， 这 种 方式 
才 可 行 。 我们 不 能 通过 电子 邮件 来 协商 ， 因 为 可 能 有 人 拦截 电子 邮件 ， 获悉 加 密 算法 ， 进 而 破译 
消息 。 即 便 通过 会 面 来 协商 , 这 种 加 密 算法 也 可 能 被 猿 出 来 一 一 它 并 不 复杂 。 因 此 ,我 们 每 天 都 
得 修改 加 密 算法 ,但 这 样 我 们 每 天 都 得 会 面 ! 

即便 我 们 能 够 每 天 修改 , 像 这 样 简单 的 加 密 算法 也 很 容易 使 用 蛮 力 攻击 破解 。 假 设 我 看 到 消 
息 “9,6,13,13,16 24,16,19,13,5”， 如 果 使 用 加 密 算法 a = 1、b = 2 等 ， 转 换 结果 将 如 下 。 


96\3l3I6 2446\a3S 
yyvyvyyy yy 


wm 关 从 人 


结果 是 一 堆 乱 码 。 我 们 来 尝试 加 密 算 法 a= 2、b = 3 等 。 


qeaeBle 24teaeBsg 
Vyvyvy 出 
本 


结果 对 了 ! 像 这 样 的 简单 加 密 算法 很 容易 破解 。 在 二 战 期 间 , 德国 人 使 用 的 加 密 算法 比 这 复 
杂 得 多 ， 但 还 是 被 破解 了 。Diffie-Hellman 算 法 解决 了 如 下 两 个 问题 。 | 
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口 双方 无 需 知道 加 密 算 法 。 他 们 不 必 会 面 协商 要 使 用 的 加 密 算 法 。 
口 要 破解 加 密 的 消息 比 登 天 还 难 。 

Diffie-Hellman 使 用 两 个 密 钥 : 公 钥 和 私 钥 。 顾名思义 , 公 钥 就 是 公开 的 ,可 将 其 发 布 到 网 站 
上 , 通过 电子 邮件 发 送 给 朋友 , 或 使 用 其 他 任何 方式 来 发 布 。 你 不 必 将 它 藏 着 掖 着 。 有 人 要 向 你 
发 送 消息 时 ,他 使 用 公 钥 对 其 进行 加 密 。 加 密 后 的 消息 只 有 使 用 私 钥 才 能 解密 。 只 要 只 有 你 知道 
私 钥 ， 就 只 有 你 才能 解密 消息 ! 


Diffie-Hellman 算 法 及 其 替代 者 RSA 依 然 被 广泛 使 用 。 如 果 你 对 加 密 感 兴趣 ， 先 着 手 研 究 
Diffie-Hellman 算 法 是 不 错 的 选择 : 它 既 优雅 又 不 难 理解 。 


11.10 ”线性 规划 

最 好 的 东西 留 到 最 后 介绍 。 线 性 规划 是 我 知道 的 最 酷 的 算法 之 一 。 

线性 规划 用 于 在 给 定 约束 条 件 下 最 大 限度 地 改善 指定 的 指标 。 例 如 , 假设 你 所 在 的 公司 生产 
两 种 产品 : 衬衫 和 手提 袋 。 衬 衫 每 件 利润 2 美元 ,需要 消耗 1 米 布料 和 5 粒 扣子 ; 手提 袋 每 个 利润 3 
美元 ,需要 消耗 2 米 布料 和 2 粒 扣 子 。 你 有 11 米 布料 和 20 六 扣子， 为 最 大 限度 地 提高 利润 ,该 生产 
多 少 件 衬衫 、 多 少 个 手提 袋 呢 ? 

在 这 个 例子 中 ， 目 标 是 利润 最 大 化 ， 而 约束 条 件 是 拥有 的 原材料 数量 。 


再 举 一 个 例子 。 你 是 个 政客 ,要 尽 可 能 多 地 获得 支持 票 。 你 经 过 研究 发 现 , 平均 而 言 ， 对 于 
每 张 支持 票 ,在 旧金山 需要 付出 1 小 时 的 劳动 ( 宣传、 研究 等 ) 和 2 美元 的 开销 ， 而 在 芝加哥 需要 
付出 1.5 小 时 的 劳动 和 1 美元 的 开销 。 在 旧金山 和 芝加哥 , 你 至 少 需要 分 别 获得 5300 和 300 张 支持 票 。 
你 有 50 天 的 时 间 ， 总 预算 为 1300 美 元 。 请 问 你 最 多 可 从 这 两 个 地 方 获 得 多 少 支持 票 ? 


这 里 的 目标 是 支持 票数 最 大 化 ， 而 约束 条 件 是 时 间 和 预算 。 

你 可 能 在 想 , 本 书 花 了 很 大 的 篇 幅 讨论 最 优化 , 这 与 线性 规划 有 何 关系 ? 所 有 的 图 算法 都 可 
使 用 线性 规划 来 实现 。 线性 规划 是 一 个 宽泛 得 多 的 框架 ,图 问题 只 是 其 中 的 一 个 子 集 。 但 愿 你 听 
到 这 一 点 后 心 调 滚 浒 ! 

线性 规划 使 用 Simplex 算 法 ， 这 个 算法 很 复杂 ， 因 此 本 书 没有 介绍 。 如 果 你 对 最 优化 感 兴趣 ， 
就 研究 研究 线性 规划 吧 


11.11 结语 


本 章 简要 地 介绍 了 10 个 算法 , 唯 愿 这 让 你 知道 还 有 很 多 地 方 等待 你 去 探索 。 在 我 看 来 ,最 住 
的 学 习 方式 是 找到 感 兴趣 的 主题 ， 然 后 一 头 扎 进去 ， 而 本 书 便 为 你 这 样 做 打下 了 坚实 的 基础 。 


1.2 8 步 。 

1.3 O(logn)。 

1.4 O(n)。 

1.5 O(n)。 

1.6 ”O(n)。 你 可 能 认为 ,我 只 对 26 个 字母 中 的 一 个 这 样 做 ， 因 此 运行 时 间 应 为 O(n / 26)。 需 要 
牢记 的 一 条 简单 规则 是 ， 大 O 表 示 法 不 考虑 乘 以 、 除 以 、 加 上 或 减 去 的 数字 。 下 面 这 些 
都 不 是 正确 的 大 0 运行 时 间 : O(n +26)、O(n 一 26)、O(n * 26)、O(n /26)， 它 们 都 应 表示 
为 O(n)! 为 什么 呢 ? 如 果 你 好 奇 ， 请 翻 到 4.3 节 ， 并 研究 大 0 表示 法 中 的 常量 (常量 就 是 
一 个 数字 ， 这 里 的 26 就 是 常量 )。 

第 2 章 

2.1 在 这 里 ， 你 每 天 都 在 列表 中 添加 支出 项 ， 但 每 月 只 读 取 支 出 一 次 。 数 组 的 读 取 速 度 快 ， 
而 插入 速度 慢 ; 链表 的 读 取 速度 慢 ， 而 插入 速度 快 。 由 于 你 执行 的 插入 操作 比 读 取 操作 
多 ， 因 此 使 用 链表 更 合适 。 另 外 ， 仅 当 你 要 随机 访问 元 素 时 ， 链 表 的 读 取 速 度 才 慢 。 鉴 
于 你 要 读 取 所 有 的 元 素 ， 在 这 种 情况 下 ， 链 表 的 读 取 速 度 也 不 慢 。 因 此 ， 对 这 个 问题 来 
说 ， 使 用 链表 是 不 错 的 解决 方案 。 

2.2 ”使 用 链表 。 经 常 要 执行 插入 操作 (服务 员 添 加 点 菜单 )， 而 这 正 是 链表 擅长 的 。 不 需要 
执行 (数组 擅长 的 ) 查找 和 随机 访问 操作 ， 因 为 厨师 总 是 从 队列 中 取出 第 一 个 点 菜单 。 


182 ”练习 答案 


2.3 ”有 序数 组 。 数 组 让 你 能 够 随机 访问 一 一 立即 获取 数组 中 间 的 元 素 ， 而 使 用 链表 无 法 这 
样 做 。 要 获取 链表 中 间 的 元 素 ， 你 必须 从 第 一 个 元 素 开 始 ， 沿 链接 逐渐 找到 这 个 元 素 。 


2.4 数组 的 插 和 人 速度 很 慢 。 另 外 ， 要 使 用 二 分 查找 算法 来 查找 用 户 名 ， 数 组 必须 是 有 序 的 。 

假设 有 一 个 名 为 AditB 的 用 户 在 Facebook 注 册 ,， 其 用 户 名 将 插入 到 数组 末尾 ， 因 此 每 次 

插入 用 户 名 后 ， 你 都 必须 对 数组 进行 排序 ! 

2.5 ”查找 时 ， 其 速度 比 数组 慢 , 但 比 链表 快 ; 而 插入 时 ， 其 速度 比 数组 快 ， 但 与 链表 相当 。 
因此 ， 其 查找 速度 比 数组 慢 ， 但 在 各 方面 都 不 比 链表 慢 。 本 书后 面 将 介绍 另 一 种 混合 

。 这 个 练习 应 该 能 让 你 对 如 何 使 用 简单 数据 结构 创建 复杂 的 数据 


结构 有 大 致 了 解 。 
Facebook 实 际 使 用 的 是 什么 呢 ? 很 可 能 是 十 多 个 数据 库 ， 它 们 基于 众多 不 同 的 数据 结 
构 : 散 列 表 、B 树 等 。 数 组 和 链表 是 这 些 更 复杂 的 数据 结构 的 基石 。 
第 3 章 
3.1 下 面 是 一 些 你 可 获得 的 信息 。 
口 首先 调用 了 也 数 greet ， 并 将 参数 name 的 值 指定 为 maggie。 
口 接 下 来 ， 函 数 greet 调 用 了 函数 greet2， 并 将 参数 name 的 值 指定 为 maggie。 
口 此 时 函数 greet 处 于 未 完成 ( 挂 起 ) 状态 。 
口 当前 的 函数 调用 为 图 数 greet2。 
口 这 个 函数 执行 完毕 后 ， 函 数 greet 将 接着 执行 。 
3.2 栈 将 不 断 地 增 大 。 每 个 程序 可 使 用 的 调用 栈 空间 都 有 限 ， 程 序 用 完 这 些 空间 ( 终 将 如 
此 ) 后 ,将 因 栈 溢出 而 终止 。 


4.1 def sum(1ist) : 
Ti ES: 
return 0 
return list[0] + sum(list[1:]) 


4.2 def count(list): 
Ef dist Ses: I] 
return 0 
return 1 + count (list[1:]) 


4.3 def max(list): 
if len(list) = 
return listl 
sub_max = max!( 
return list[0] 


二 

0] if list[0] S- 1ist[1] -else 1ist[1] 
list[1:]) 

if list[0] > sub max else sub max 
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4.4 


第 7 
7.1 


8.1 


二 分 查找 的 基线 条 件 是 数组 只 包含 一 个 元 素 。 如 果 要 查找 的 值 与 这 个 元 素 相 同 ， 就 找 
到 了 ! 否则 ， 就 说 明 它 不 在 数组 中 。 


在 二 分 查找 的 递归 条 件 中 ， 你 把 数组 分 成 两 半 ， 将 其 中 一 半 丢 弃 ， 并 对 男 一 半 执 行 二 
分 查找 。 
O(n)o 


O(n)o 
O(1)。 
O(n’)。 


不 一 致 。 

不 一 致 。 

一 致 。 

散 列 函数 C 和 D 可 实现 均匀 分 布 。 
散 列 函数 B 和 D 可 实现 均匀 分 布 。 
散 列 函数 B、C 和 DD 可 实现 均匀 分 布 。 


最 短路 径 的 长 度 为 2。 

最 短路 径 的 长 度 为 2。 

A 不 可 行 ，B 可 行 ，C 不 可 行 。 

1 一 一 起 床 , 2 一 一 锻炼 , 3 一 一 洗澡 , 4 一 一 刷牙 , 5 一 一 穿 衣服 , 6 一 一 打包 午餐 ,7 

吃 早餐 。 

A 是 树 ，B 不 是 树 ，C 是 树 。C 是 一 棵 横着 的 树 。 树 是 图 的 子 集 ， 因 此 树 都 是 图 ， 但 图 
可 能 是 树 ， 也 可 能 不 是 。 


< 


时 


A 为 8; B 为 60; C 使 用 狄 克 斯 特 拉 算 法 无 法 找 出 最 短路 径 ， 因 为 存在 负 权 边 。 


一 种 贪 焚 策 略 是 ， 选 择 可 装 人 卡车 剩余 空间 内 的 最 大 箱子 ， 并 重复 这 个 过 程 ， 直 到 不 
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能 再 装 入 箱子 为 止 。 使 用 这 种 算法 不 能 得 到 最 优 解 。 
8.2 不 断 地 挑选 可 在 余下 的 时 间 内 完成 的 价值 最 大 的 活动 ， 直 到 余下 的 时 间 不 够 完成 任何 
活动 为 止 。 使 用 这 种 算法 不 能 得 到 最 优 解 。 


9.1 要 。 在 这 种 情况 下 ， 你 可 偷 来 MP3 播 放 器 和 iPhone 和 吉他 ， 总 价值 为 45300 美 元 。 
9.2 ”你 应 携带 水 、 食 物 和 相机 。 
9.3 


第 10 章 


10.1 可 使 用 妇 一 化 (normalization )。 你 可 计算 每 位 用 户 的 平均 评分 ， 并 据 此 来 调整 用 户 
的 评分 。 例 如 ， 你 可 能 发 现 Pinky 的 平均 评分 为 星 3 ， 而 Yogi 的 平均 评分 为 3.5 星 。 
此 ,你 稍微 调 高 Pinky 的 评分 , 使 其 平均 评分 也 为 3.5 星 。 这 样 就 能 基于 同样 的 标准 比 
较 他 们 的 评分 了 。 

10.2 ”可 在 使 用 KNN 时 给 意见 领袖 的 评分 更 大 权重 。 假 设 有 3 个 邻居 一 一 Joe 、Dave 和 意见 领 
袖 Wes Anderson, 他 们 给 Caddyshack 的 评分 分 别 为 3 星 、4 星 和 5 星 。 可 不 计算 这 些 评分 
的 平均 值 (3+4+5)/3=4 星 ， 而 给 Wes Anderson 的 评分 更 大 权重 : (3+4+5+5+5)/ 
5=4.4 星 。 


10.3 太 少 了 。 如 果 考 虑 的 邻居 太 少 ， 结 果 很 可 能 存在 偏差 。 一 个 不 错 的 经 验 规则 是 : 如 果 
有 NN 位 用 户 ， 应 考虑 sqrt(N) 个 邻居 。 


拭 法 图 解 


Curokkeing Mlgoritnms 


An illustrated guide for programmers and other curious people 


4 你 一 定 能 看 懂 的 算法 基础 书 

4 代码 示例 基于 Python 

4 400 多 个 示意 图 ， 生 动 介绍 算法 执行 过 程 

4 展示 不 同 算法 在 性 能 方面 的 优 缺 点 

4 教会 你 用 常见 算法 解决 每 天 面临 的 实际 编程 问题 


本 书 完成 了 一 项 不 可 能 完成 的 任务 : 让 算法 变 得 有 趣 、 易 懂 ! 

Sander Rossel, COAS Software Systems 

你 渴望 像 看 喜欢 的 小 说 一 样 学 习 算 法 吗 ? 如 果 是 ， 本 书 正 是 你 梦 赚 以 求 的 ! 

Sankar Ramanathan, IBM Analytics 
如 今 ， 使 用 算法 进行 优化 已 渗透 到 了 生活 的 方方面面 。 如 果 你 正 寻找 优秀 的 算法 入 门 书 ， 

本 书 就 是 你 的 首选 。 


一 一 Amit Lamba, Tech Overture 


看 了 这 本 书 我 才 知道 ， 原 来 学 习 算 法 一 点 都 不 乏味 ! 
一 一 Christopher Haupt，Mobirobo 
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